Referat-info
Меню сайту
Категорії розділу
Інформатика і комп`ютерні технології [73]
Block title
Block title
Block title
Головна » Статті » Інформатика і комп`ютерні технології » Інформатика і комп`ютерні технології

Основні об'єкти та механізми пошуку інформації в інтернеті
Проблеми пошуку

Контроль повноти охоплення ресурсів
Повномасштабний збір інформації в Інтернет по якому-небудь питанню в багатьох випадках виводить пошук за межі широко освоєного Web-простору, до telnet-доступних баз даних, регіональних телеконференцій і інших сховищ інформації. Знання всіх основних існуючих на сьогоднішній день типів ресурсів Мережі, розуміння технічної і тематичної специфіки їхнього інформаційного наповнення й особливостей доступу стає необхідною умовою успішного планування і проведення пошукових робіт.

Контроль вірогідності інформації
Контроль вірогідності інформації отриманої з Мережі в результаті пошуку, зрозуміло, може забезпечуватися різними засобами. Коротко зупинимося на можливостях, які надає сама Мережа. Так, традиційними способами перевірки є локалізація джерел інформації, альтернативних даному; звірення фактичного матеріалу, встановлення частоти його використання іншими джерелами; з'ясування статусу документа і рейтингу вузла, на якому він знаходиться засобами пошукових систем; одержання інформації про компетентність і статус автора матеріалу за допомогою спеціальних пошукових сервісів; аналіз окремих елементів організації вузла з метою оцінки кваліфікації фахівців і ін.

Швидкість проведення пошуку в Мережі
Якщо не брати до уваги технічні характеристики підключення користувача, швидкість залежить в основному від двох факторів. Це грамотне планування пошукової процедури і навички роботи з ресурсом обраного типу. Під складанням плану пошукових робіт розуміється вибір пошукових сервісів і інструментів, що відповідають специфіці задачі і, що вкрай важливо, послідовності їхнього застосування в залежності від очікуваної результативності. Після одержання доступу до відповідного ресурсу на передній план висувається уміння швидко розібратися в його структурі і способах навігації. Моторика виконання дій, уміле поєднання пошукових засобів і можливостей обробки інформації локальної клієнтської програми і сервера для пошуку є необхідними навичками.

Основні об'єкти і механізми пошуку
Так чи інакше, сьогодні інформація в Інтернет являється доступною з джерел різного типу. Планувати пошук без повного уявлення про їхній спектр і особливості функціонування неможливо. Перелік основних типів ресурсів, який можна використовувати як карту при плануванні пошукової процедури, наведений нижче.

Основні інформаційні і комунікаційні ресурси Інтернету
електронна пошта і поштові роботи;
глобальна система телеконференцій Usenet, регіональні і спеціалізовані телеконференції;
списки розсилань;
онлайнові засоби комунікації користувачів;
системи пошуку людей і організацій;
бази даних Hytelnet;
система файлових архівів FTP, системи пошуку в FTP-архівах глобального регіонального охоплення;
бази даних Gopher і пошукова система Veronica;
гіпертекстова інформаційна система World Wide Web (WWW);
каталоги ресурсів - глобальні, локальні, спеціалізовані (у середовищі WWW);
пошукові машини, чи автоматичні індекси - глобальні, локальні, спеціалізовані (у середовищі WWW);
банерні системи (у середовищі WWW);
активні інформаційні канали (у середовищі WWW);

Інформація, опублікована на веб-серверах.
Гіпертекстова інформаційна система World Wide Web (WWW) і її технології на сьогоднішній день найбільш значні в Мережі і продовжують свій підйом. Так, з кінця 1997 р. до початку 1999 р. кількість інформації в WWW збільшилося більш ніж у два рази — з 320 до 800 мільйонів сторінок. Основними механізмами пошуку є каталоги веб-сторінок і пошукові машини, що надають у розпорядження користувача базу даних по ресурсах. Полегшують пошук спеціалізовані метапошукові машини, що використовують бази даних декількох серверів, а також спеціалізовані програми — пошукові клієнти.
Каталоги ресурсів
Каталоги ресурсів — глобальні, локальні, спеціалізовані; являють собою бази даних з адресами ресурсів і найрізноманітнішим масштабом накопиченої інформації й охопленням тематики які розташовані в Мережі. Звичайно вони мають ієрархічну структуру, переміщаючись по який, можна локалізувати потрібний об'єкт. Швидкість нагромадження інформації такими системами являється порівняно низкою, оскільки в класифікації ресурсів передбачається особиста участь людини. Для пошуку одержання інформації про ресурс із відомого каталогу завжди являється деякою гарантією вірогідності. При вирішенні більш-менш стандартної пошукової задачі саме каталог є стартовою площадкою для початку пошуку.
Основними характеристиками каталогів є наступні.
Спрямованість тематики і широта охоплення ресурсів — загальні, спеціалізовані, глобальні, регіональні.
Обсяг бази даних (загальна кількість посилань у каталозі).
Структура рубрик, наявність декількох індексів.
Можливість пошуку по каталозі.
Механізм збереження інформації каталогом — якщо каталог створений у вигляді веб-сторінки, як, наприклад, Yahoo (www.yahoo.com), то первісна структура рубрик каталогу не підлягає зміні і можливості пошуку вкрай обмежені. Якщо ж каталог виконаний у вигляді інтерфейсу до бази даних, наприклад російський АУ! (www.au.ru), чи львівський сайт Ukrainet Yellow Pages (www.ukrainet.lviv.ua/yellow/pages.htm)? він надає більш гнучкі можливості пошуку кілька індексів.
Пошукові машини
Пошукові машини, чи автоматичні індекси — глобальні, локальні, спеціалізовані являють собою могутні інформаційно-пошукові системи, розташовані на серверах вільного доступу. Їхні спеціальні програми-роботи, чи павуки, в автоматичному режимі безупинно сканують інформацію Мережі на основі заданих алгоритмів, проводячи індексацію документів. У наступному на основі створених індексних баз даних пошукові машини надають користувачу доступ до розпреділеної на вузлах Мережі інформації. Це реалізується через виконання пошукових запитів у рамках відповідного інтерфейсу. Останні дослідження можливостей пошукових машин, навіть якщо наймогутніший з них, таких як AltaVista, чи HotBot, показують, що реальна повнота охоплення ресурсів Всесвітньої Павутини окремою такою системою не перевищує 15%.
Розглянемо схему роботи такої системи.

Client (клієнт) — це програма перегляду, браузер, наприклад Internet Explorer. Чи спеціалізований пошуковий клієнт, наприклад програма Copernic.
User interface (користувальницький інтерфейс) — це не просто програма перегляду, у випадку пошукової системи під цим словосполученням розуміють також спосіб спілкування користувача з пошуковим апаратом: системою формування запитів і переглядів результатів пошуку.
Search engine (пошукова машина) — служить для трансляції запиту користувача, у формальний запит системи, пошуку посилань на інформаційні ресурси Мережі і видачі результатів цього пошуку користувачу.
Index database (індекс бази даних) - індекс, який є основним масивом даних пошукової системи і служить для пошуку адреси інформаційного ресурсу. Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б оцінити цінність кожного зі знайдених інформаційних ресурсів мережі.
Queries (запити користувача) - зберігаються в його (користувача) особистій базі даних. На редагування кожного запиту іде досить багато часу, і тому надзвичайно важливо запам'ятовувати запити, на які система дає гарні відповіді. При роботі з пошуковою машиною за допомогою браузера, запити зберігаються в кеші програми, при роботі з пошуковим клієнтом є можливість зберігати результати запитів.
Index robot (робот-индексувальник) - служить для сканування Internet і підтримки бази даних індексу в актуальному стані.
Метапошукові машини
Загальна кількість сторінок у мережі зараз близько 800 мільйонів. У той же час ступінь охоплення цих сторінок самими могутніми на сучасний момент пошуковими серверами всього лише близько 16%.
У ході дослідження на основі результатів обробки 1050 запитів були визначені можливості 11 найпопулярніших пошукових систем. Наймогутнішою виявилася система Northern Light, що охоплює, як вже відзначалося вище, 16% всіх Web-сторінок. Друге і третє місця з невеликим відставанням від лідера поділили AltaVista і Snap — по 15,5%. Четверте місце з результатом 11,3% зайняла система HotBot. Ступінь охоплення пошукових засобів найбільш популярних Web-порталів — Yahoo!, Excite і Lycos — склала відповідно 7,4, 5,6 і 2,5%.
Сумарне покриття всіх 11 пошукових систем дорівнювало 42%, чи 335 мільйонам сторінок.
Тому ступінь імовірності знайти необхідну інформацію зростає при використанні декількох пошукових систем. Метапошукові машини призначені для перенаправлення запиту користувача декільком пошуковим серверам. Як правило, отримані в результаті запитів посилання упорядковуються, видаляються дублюючі, є можливість різних варіантів сортування.

Інформація про людей і організації
Веб-простір
Адреси електронної пошти окремої особи чи організації традиційно використовуються для ідентифікації власника. У комунікаційних ресурсах Мережі - он-лайнових засобах комунікації користувачів і системах телеконференцій нерідко він виявляється необхідним атрибутом кожного учасника. Спеціальна URL-схема mailto дозволяє вставляти в Web-сторінку гіперпосилання на e-mail, автоматично відкриваючого поштового клієнта. У цьому вигляді вона широко застосовується в Павутині. Самі адреси при цьому вільно індексуються пошуковими системами і доступні для пошуку через пошукові машини загального призначення. AltaVista, наприклад, показує, що адреси електронної пошти зустрічаються майже на 100 мільйонах Web-сторінок з 150 мільйонів заіндексованих нею документів.
Адреси e-mail активно накопичуються й у спеціальних системах пошуку людей і організацій. Серйозною незручністю для пошуку по e-mail є те, що при одержанні адреси допускається реєстрація користувача під псевдонімом. Ця практика особливо широко поширена на серверах, які надають безкоштовні поштові скриньки.
Он-лайнові засоби комунікації користувачів
Chat, ICQ і інші припускають можливість обміну інформацією між двома чи великою кількістю користувачів Мережі в режимі реального часу через посередництво спеціального чат-сервера . Частиною такого обміну може стати текстовий діалог, передача графіки прямо в процесі її створення, голосовий і відео зв'язок, обмін файлами. Довгий час ресурси цього типу вкрай рідко використовувалися при вирішенні пошукових задач, однак ситуацію змінила поява в 1996 році нового сервісу цього типу, а саме служби ICQ (http://www.icq.com). На відміну від раніше існуючих чатів, де реєстрація учасників, як правило, носила анонімний характер і діяла лише протягом сеансу зв'язку, розробники ICQ запропонували кожному користувачу реєстраційний номер-ідентифікатор, що зберігався б за ним постійно. Це рішення мало грандіозні наслідки в області комп'ютерного спілкування людей. Унікальний ICQ-номер може з'явитися на візитних картках поруч з телефоном, адресою електронної пошти і домашньою сторінкою. При пошуку людей і організацій можна з успіхом використовувати пошукову службу ICQ, що стає доступною відразу після установки ICQ-клієнта на комп'ютер.
Системи пошуку людей і організацій
в сучасній Мережі характеризуються двома важливими моментами: більшість цих ресурсів уже перенесено на Web-сервери й все ширшої присутності одержує в них інформація про людей і організації, що не мають прямого чи взагалі ніякого відношення до Інтернету. З останнім твердженням пов'язані відомі факти появи в Мережі телефонних, адресних і інших баз даних як окремих організацій, так і цілих регіонів. Проте такий чисто мережевий ідентифікатор користувача як адреса e-mail залишається домінуючим пошуковим атрибутом для багатьох сервісів цього типу. Джерелом поповнення їхніх баз даних стають матеріали телеконференцій, Web-сервери, а також самостійна реєстрація користувачів. До них додаються системи, що спеціалізуються на пошуку, наприклад, по номеру ICQ (див. вище) чи домашніх сторінок користувачів (служба Ahoy!, URL http://www.cs.washington.edu/research/ahoy/). Поряд з переорієнтуванням сервісів під WWW у Мережі продовжує працювати одна із найстаріших пошукових служб подібного типу - Whois, доступна по протоколі telnet із сервера whois.internic.net після входу по login: whois.
Часто виникають спроби з'ясувати рейтинг пошукових сервісів цього призначення. Так, за результатами досліджень журналу PC Magazin (http://www.zdnet.com/pcmag) найбільшою популярністю в Мережі серед користувачів Європи і Північної Америки користається служба пошуку адрес електронної пошти Four11 (http://www.four11.com), розташована в порталі Yahoo. Однак практика показує, що початок пошуку саме з цієї служби зовсім не гарантує успіху. Усі ці служби мають один серйозний недолік - вони не являють собою єдину ким-небудь адміністровану систему, а є лише хаотично з погляду стороннього спостерігача поповнюваним набором інформаційних вузлів. Наслідком цього є те, що грамотно спланувати пошукову процедуру і розставити пріоритети в пошуку окремої особи стає вкрай складно. У деяких випадках набагато ефективніше вдатися до пошуку людини по його слідах у Мережі - публікаціях, місця роботи і т.п. з використанням пошукових систем загального призначення.
Системи реальних імен
В основі систем реальних імен лежить ідея побудови між URL ресурсами і користувачами ще одного рівня адресу, на які не поширюються обмеження, властиві URL.
Ця ідея була реалізована в створеній навесні цього року Національній службі імен (НСІ). Служба розроблена компанією «МедіаЛінгва», а підтримує її компанія "100%". На сервері НСІ, що знаходиться за адресою www.names.ru зберігається база адрес, що дозволяє шукати Web-сторінки по їхніх "російських іменах" - назвав фірм і організацій, імен власників, характерним ключовим словам, рекламним девізам. Скажемо, за запитом "Відкриті системи" буде знайдена сторінка http://www.osp.ru/, за запитом "МШС" - http://www.css-mps.ru/, за запитом "Яблуко" і "Явлінський" - http://www.yabloko.ru/, а за запитом "машинний переклад" - http://www.ets.ru/.
На тому ж сервері (і на декількох інших) є безкоштовний драйвер, встановивши який можна вводити запити до бази російських імен прямо в поле адреси; одержавши запит, драйвер зв'язується із сервером НСІ, знаходить у базі потрібний URL і робить автоматичне переключення на відповідну сторінку. Таким чином, з погляду користувача, те що він вводить як адреси російські слова і словосполучення будуть цілком еквівалентні стандартним URL.

База імен
База імен складається з двох частин: імена фірм і організацій й імена приватних осіб. Перші повинні бути унікальними, тобто якщо швидко видавництво ЕТС зареєструвало для своєї сторінки ім'я "машинний переклад", то фірмі ПРОМТ це зробити вже не вдасться (зате на сторінку, присвячену ПРОМТ, - правда, не на її власну, а на ту, яка належить компанії "Агама", - russia.agama.com/promt.htm - відсилає запит "програми перекладу"); кілька адрес можуть виявитися результатом пошуку, але лише у випадку, коли запит не має точної відповідності в базі. З іншого боку, як ми бачили, таких строгих обмежень немає: одному URL можуть відповідати і кілька імен; реєстраційна форма передбачає, крім основного імені, до чотирьох синонімів. З іменами приватних осіб все навпаки: вимога унікальності, природно, відсутня (людина не повинна страждати через те, що в неї є однофамільці), а синоніми - прізвиська, псевдоніми - не допускаються. Імена обох типів можна забезпечити короткою анотацією, з яким НСІ буде працювати як звичайна пошукова система.
Реєстрація в базі здійснюється тільки за заявками, причому співробітники НСІ попередньо перевіряють відповідність імен і анотацій сторінок їх реальному змісту. Якщо приватна особа реєструє тільки свою адресу електронної пошти (що допускається), то перевірити правильність повідомлених даних, мабуть, неможливо. Знову на зареєстрований адрес посилається повідомлення - воно гарантує, що власник адреси дійсно хотів зареєструватися, - а от гіпотетичну ситуацію, у якій хтось привласнює собі ім'я іншої людини, щоб перехопити частину його переписування, запобігти не можна.

Телеконференції
Глобальна система телеконференцій Usenet, регіональні і спеціалізовані телеконференції. Система побудована за принципом електронних дощок оголошень, коли користувач може розмістити свою інформацію в одній з тематичних груп новин. Потім ця інформація передається користувачам, за підписанням на дану групу. Повна кількість груп новин Usenet перевищує 20 тисяч і дані про них можна знайти, наприклад, на Yahoo. Усі вони одночасно не підтримуються жодним сервером, так що важче буває відшукати не назву відповідної групи, а сервер телеконференцій, з якого її можна завантажити. Usenet - ключове слово саме для глобальної системи телеконференцій. Регіональні і спеціалізовані системи також мають поширення. Ресурс найважливіший для швидкого нагромадження інформації по вузькому питанню, а при пошуку - частіше для одержання приватної, неофіційної інформації.

Файлові архіви
Система файлових архівів FTP, системи пошуку в FTP-архівах глобального і регіонального охоплення. Ресурси цього типу не відступили так беззастережно під тиском Web-технологій, як більшість інших. Одна з причин у величезній кількості інформації, накопиченої в ftp-архівах за десятиліття експлуатації комп'ютерних систем, що як і раніше коштовна для фахівців. Соціального замовлення на її перенесення у Web-простір у повному обсязі не існує. Інша причина криється в простоті доступу, навігації і передачі файлів по ftp. Так чи інакше сьогодні ftp-ресурси потрібні і навіть характеризуються розвитком не тільки своєї єдиної глобальної пошукової системи Archie (адреса одного зі стабільно доступних Web-шлюзів до неї - http://ftpsearch.ntnu.no), але і регіональних систем, зокрема російської - http://ftpsearch.city.ru , що охоплює більш 2000 серверів.
Ftp-архіви - це в першу чергу джерела програмного забезпечення, що успішно конкурують з Web-вузлами, що спеціалізуються на продажі і поданні колекцій програм. На відміну від Web-вузлів на них набагато частіше можна зіштовхнутися з порушенням авторських прав у вигляді піратських копій програм і окремих матеріалів, які продаються на інших вузлах за гроші. Як наслідок тіньових сторін ftp-сервісу - небезпека зараження вірусом з неперевіреного джерела. Пошуки якої ж інформації варто починати з пошукової системи ftp? Універсальна відповідь проста: оскільки ключовим словом при оформленні запиту є текст, що входить у назву файлу чи каталогу на ftp-сервері, то найбільшого успіху можна досягти в пошуку інформації, яка є оформленою у вигляді файлу, або вже має визначене ким-небудь ім'я, або існує реальна можливість його вгадати.
Категорія: Інформатика і комп`ютерні технології | Додав: lanaori (03.11.2015)
Переглядів: 1052 | Рейтинг: 0.0/0
Всього коментарів: 0
Додавати коментарі можуть лише зареєстровані користувачі.
[ Реєстрація | Вхід ]
Форма входу
Пошук
Block title
Block title

Copyright MyCorp © 2024