Open Library - открытая библиотека учебной информации

Цель работы: изучение принципов организации поиска в сети Internet и приобретение практических навыков составления поисковых запросов.

2.1 Простые приемы поиска Web -страниц

Простые приемы поиска не предполагают использования мощных поисковых возможностей сети Internet и основываются на знании принципов формирования символьных доменных имен и интуиции.

Поиск коммерческих Web -сайтов. Чтобы получить искомый адрес, к названию фирмы, предприятия, организации или простому английскому существительному (ключевому слову) можно добавить домен. com, подставить впереди www. Web-страницы, в адресе которых обозначен домен верхнего уровня. com., чаще всего содержат информацию на английском языке .

Пример 1. Возьмем название фирмы SONY, добавим домен. com, а впереди www. - получим адрес Web-страницы фирмы SONY: www . sony . com . Аналогичным образом можно получить:

www . cnn . com - всемирные новости CNN;

www . mtv . com - музыкальные новости MTV;

www. - журнал COSMOPOLITAN.

Если ввести ключевое слово в адресной строке Internet Explorer и нажать Ctrl + Enter , то обозреватель попробует перейти к точному URL-адресу, автоматически добавляя имя протокола и признак Web, например http://www. и домен верхнего уровня. com. Например, если набрать в адресной строке me и нажать Ctrl-Enter, то обозреватель Internet Explorer попробует открыть Web-узел с адресом http :// www . me . com . Если узел не открывается, значит, он не существует.

Поиск по регионам. Для российского и других регионов приведенный выше прием остается в силе. В данном случае к ключевому слову добавляется домен верхнего уровня региона (двухбуквенный код страны), что дает адрес Web-страницы. Например, для поиска российских серверов к ключевому слову можно попробовать добавить домен. ru.

Пример 2. Известно, что есть сервер www . audi . com . Можно попытаться найти его филиал в России, заменяя домен. com на домен. ru, - www . audi . ru .

Поиск крупных учебных заведений. К названию или аббревиатуре учебного заведения добавляется домен. edu (в основном, для американского и европейского регионов), что, как правило, дает нужный адрес.

Пример 3. Возьмем университет OXFORD, добавим домен. edu, а впереди www. - получим адрес Web-страницы университета OXFORD: www . oxford . edu . Часто в адресе Web-страницы учебного заведения отсутствует домен. edu. Зарегистрированным доменом второго уровня (или псевдонимом домена) может быть сокращенное английское название учебного заведения. Для поиска российского учебного заведения можно взять его английскую аббревиатуру, например MSU (Moscow State University), добавить домен. ru - www . msu . ru - Московский государственный университет имени.

Часто в адресе Web-страницы присутствует доменное имя поставщика услуг Internet, на компьютере которого установлена данная Web-страница, например, www . kgtu . runnet . ru - адрес Красноярского государственного технического университета, где ***** - доменное имя поставщика услуг Internet.

Многие страны имеют зарегистрированный домен второго уровня для учебных заведений. Например, для Великобритании - это домен AC (Academic). Любая Web-страница может иметь несколько адресов-псевдонимов, при обращении к которым пользователь попадает на одну и ту же Web-страницу. Например, для университета OXFORD это адреса www . ox . ac . uk и www . oxford . edu .

Прочий поиск Web -страниц. Можно манипулировать ключевыми словами и доменами верхнего уровня для поиска правительственных (.gov), военных (.mil) и других организаций (.org). Например, адрес Белого дома правительства США: www . whitehouse . gov .

2.2 Поисковые системы сети Internet

В Internet имеются мощные средства поиска любой информации: документов, изображений, программ, Web-страниц и т. д. Поиск осуществляется в так называемых поисковых системах, которые также называют поисковыми программами, поисковыми серверами, поисковыми машинами. Поисковых систем в Internet множество. Наиболее известные системы поиска информации приведены в таблице 2.1. Список ссылок на различные поисковые системы размещен на Web-странице www . monk . newmail . ru .

Таблица 2.1 - Наиболее популярные поисковые системы

Название поисковой системы	Адрес
Яндекс (русскоязычная)	http://www. *****
Рамблер (русскоязычная)	http://www *****

Апорт (русскоязычная)	http://w w w. *****
Yahoo! (англоязычная)
AltaVista (англоязычная)
Google (русскоязычная)	http://www. *****

Поисковая система реализована в виде Web-страницы с обычным адресом, которая содержит так называемую строку для поиска и кнопку Поиск (Search ), а также может содержать тематический каталог ресурсов, ссылки на популярные страницы и т. п.

Для вызова поисковой системы необходимо ввести в адресной строке обозревателя Internet ее адрес. После загрузки поисковой системы в строке для поиска необходимо ввести запрос (query ), который представляет собой строку текста (на любом языке), - ключевую фразу искомых документов в Internet и щелкнуть кнопку Поиск. Для более эффективного поиска необходимо, чтобы запрос содержал слова или фразу, которые будут на искомой Web-странице или в искомом документе (их нужно «угадать»). Через некоторое время на экране появится список адресов Web -страниц, содержащий ссылки на искомые документы, которые, как правило, сопровождаются комментариями. Щелкнув ссылку, можно перейти к любому из найденных документов.

Чтобы перейти к следующей странице списка найденных документов, необходимо щелкнуть соответствующий номер (1, 2, 3, ...) в главном окне с результатом поиска. Обычно документы из первой десятки найденных максимально соответствуют запросу.

Основу любой поисковой системы составляет специальная программа -сетевой робот или spider (паук), иногда можно встретить названия worm (червь), crawler (ползучее растение). Поисковая система рассылает в Internet таких «пауков», которые просматривают максимальное количество (по возможности) представленных в Internet Web-страниц, а затем регистрируют их адрес (URL) и содержимое в своей базе данных . После ввода пользователем запроса и щелчка кнопки Поиск поисковая система просматривает базу данных и выводит на экран результат поиска.

Кроме того, практически все поисковые системы позволяют зарегистрировать страницу пользователя, размещенную в Internet. Для этого на странице крупной поисковой системы, например, такой как YAHOO!, нужно вызвать режим регистрации и ввести URL и описание своей страницы. Далее поисковая система распространит вашу регистрационную информацию на все другие крупные поисковые узлы, те, в свою очередь, на другие и т. д. Имеются также глобальные регистрационные серверы.

Поисковые каталоги имеются, например, на поисковых серверах Rambler, Yahoo!, AltaVista и др. Чтобы осуществить поиск по каталогу, необходимо выбирать «мышью» темы, углубляясь и сужая круг поиска до тех пор, пока список выведенных ссылок не уменьшится до нескольких страниц, которые можно просмотреть вручную, либо до достаточно большой группы, в которой можно осуществить обычный поиск (например, в поисковой системе Япёех: Учеба Высшее образование Московский государственный университет).

2.3 Правила выполнения запросов в поисковых системах

При выполнении запросов имеются определенные правила, которые отчасти могут различаться в разных поисковых системах, однако основные действия схожи. Правила выполнения запросов всегда можно узнать на Web-странице конкретной поисковой системы в разделе Помощь (этот раздел может называться Help , Как искать, Советы поиска, Правила выполнения запросов и т. п.). Правила запросов обычно включают в себя использование языка запросов для расширенного поиска.

Самое простое правило, существующее для всех поисковых систем, - указать любую фразу и щелкнуть Поиск.

В следующем пункте будут рассмотрены некоторые правила выполнения запросов на примере системы Яндекс. Многие из этих правил применимы и к другим поисковым системам. Примеры запросов взяты со страниц помощи поисковой системы Яндекс.

2.4 Примеры простых запросов в поисковой системе Яndex

Обычно запрос - это просто одно или несколько ключевых слов, например: микропроцессоры компании Intel . По такому запросу находятся документы, в которых встречаются все слова запроса. Некоторые слова в запросе игнорируются (союзы, предлоги и т. п.), так как не несут смысловой нагрузки. Например, по запросу яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег» (однако порядок их отображения в списке будет различным). Где в пределах документа расположены слова, в какой грамматической форме они находятся - не важно. Предлог на игнорируется. Поэтому приведенный запрос можно написать и так: снег на яблоке. Результат поиска будет таким же.

Важное и очень полезное свойство поисковых систем: независимо от того, в какой грамматической форме вы пишете в запросе слово, оно находится в документах во всех своих формах. Например, по запросу человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка . Для экзотических слов, неологизмов и т. п. оно не осуществляется.

Операторы Яндекс, их назначение и примеры использования можно найти в пункте помощи системы.

Для визуального создания сложных запросов можно использовать возможности расширенного поиска на странице «Расширенный поиск».

1. Ознакомьтесь с теоретическими сведениями.

2. Составьте адрес Web-сайта всемирно известной фирмы (Intel, IBM, Sony и т. д.) и откройте его в Internet Explorer . Сохраните найденные Web-страницы в отдельной папке.

3. Используя тот же прием, перейдите на Web-сайт Санкт-Петербургского государственного университета и тем же способом откройте Web-сайт факультета прикладной математики этого же университета. Сохраните найденные Web-страницы в отдельной папке.

4. В каждой поисковой системе (таблица 2.1) выполните несколько запросов, затрагивающих интересующие вас проблемы, и откройте найденные документы.

5. Опробуйте поиск по тематическим каталогам.

6. С помощью расширенного поиска на Яндексе сравните популярность следующих сайтов по количеству страниц, ссылающихся на них: Президента и Правительства Российской Федерации; Московского государственного университета и Санкт-Петербургского государственного университета; Эрмитажа и Лувра. Сохраните найденные Web-страницы в отдельной папке. Создайте текстовый файл, где зафиксируйте количество ссылок на каждую из них.

7. Найдите информацию о том, когда и где родился. Составьте список его произведений. Найдите его фотографии в разные годы жизни. Сохраните всю информацию в отдельной папке.

8. Осуществите поиск информации в сети Internet по выбранной теме курсовой работы . По результатам поиска создайте в текстовом редакторе Word таблицу согласно образцу (таблица 2.3) и заполните ее.

Таблица 2.3 - Образец оформления отчета о результатах поиска

№ *и/и*		Характеристика результатов поиска
URL найденного ресурса	Краткое описание ресурса

9. Пригласите преподавателя для отчета о проделанной работе.

10. Удалите сохраненные в процессе работы файлы из рабочей папки.

2.6 Контрольные вопросы

1. Охарактеризуйте простые приемы поиска информации в сети Internet.

2. Каковы принципы работы поисковых систем сети Internet?

3. Сформулируйте основные правила составления поисковых запросов.

4. Какие из рассмотренных Вами поисковых систем имеют возможности использования языка запросов?

5. Какие из рассмотренных Вами поисковых систем имеют тематический каталог ресурсов?

6. Какие из рассмотренных Вами поисковых систем имеют возможности поиска по различным категориям информационных ресурсов?

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Подобные документы

Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

курсовая работа , добавлен 26.03.2011

Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

реферат , добавлен 02.11.2010

Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

реферат , добавлен 12.05.2010

Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

курсовая работа , добавлен 29.03.2013

Характеристика поисковых систем Yandex, Google, Rambler: сходства и отличия, преимущества и недостатки. Поиск определения ряда терминов, программных продуктов. Поиск информации по направлениям: писатели и поэты, их произведения, доктора наук для Самары.

контрольная работа , добавлен 22.08.2011

Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

курсовая работа , добавлен 10.05.2015

Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

курсовая работа , добавлен 18.04.2010

Интернет предоставляет неограниченный доступ к информационным ресурсам, как в области юридической науки, так и практического законотворчества. Поисковые системы значительно облегчают задачу по нахождению необходимой информации, каких либо данных, статей, монографий и программ. Интернет-ресурсы становятся эффективным средством приобретения новых знаний, а также реализуют доступ к электронным версиям не только юридических журналов и газет, но и к множеству юридической литературы, доступной как в бесплатной, так и платной форме.

Практически любой юрист может попробовать себя в качестве «дистанционного консультанта» по юридическим проблемам. Для этого необязательно создавать персональную web-страничку, достаточно стать участником одного из уже действующих Интернет-проектов. Например, большой популярностью в отечественном Интернете пользуется так называемая «Виртуальная Юридическая Консультация» (www.uristy.ru). Принять участие в работе этой консультации может любой специалист, имеющий юридическое образование, достаточно лишь зарегистрироваться в системе.

Но нельзя не отметить, что доступность и простота размещения информации, а также практически полная независимость серверов друг от друга в Интернете, превратила всемирное достижение в хаос. Вот почему год от года проблема поиска необходимой информации в Интернете становится все актуальнее. Особенно это важно в условиях ограниченного времени и в том случае, когда принятие решения должно опираться на конкретный документ.

Самая простая возможность что-то найти, это ввести ключевые слова прямо в адресную строку браузера. Поиск происходит в майкрософтовской системе WSN Search.

Рис.18 Система WSN Search

Другой способ поиска дает кнопка Поиск на панели браузера. При использовании этой кнопки окно делится на две части. Слева находится строка для ввода ключевых слов, список найденных страниц, а справа можно просматривать выбранные страницы. Можно использовать другую поисковую систему, используя кнопку Настроить в панели Поиск .

Поисковые системы Интернет:

Поисковые системы можно подразделить на следующие группы:

поисковые каталоги

поисковые машины или поисковые указатели

Поисковые каталоги.

Каталоги ресурсов – глобальные, локальные, специализированные – представляют собой размещаемые в Сети базы данных с адресами ресурсов. Эти базы данных могут иметь разный объем накопленной информации. Обычно они имеют иерархическую структуру.

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Обратившись к адресу поискового каталога, мы находим на его основной странице список тематических категорий, например таких как «Юриспруденция», «Образование», «Спорт» и т.д.

Каждая запись в списке категорий – это гиперссылка. Щелчок по ней открывает следующую страницу поискового каталога, на котором выбранная тема представлена более подробно. Продолжая погружаться в тему, можно дойти до списка конкретных Web-страниц и выбрать тот ресурс, который наиболее подходит для решения Вашей задачи. Также в поисковом каталоге можно использовать кнопку Поиск для уточнения поиска нужных страниц.

Поисковые каталоги создаются в основном вручную высококвалифицированными редакторами, которые просматривают пространство WWW, отбирают то, что по их мнению представляет общественный интерес и заносят адреса в каталог.

Yahoo (www.yahoo.com) – признан наиболее популярным каталогом во всем мире. Возможен поиск на русском языке.

Российские каталоги:

« List . Ru » (www . list . ru ),

«Созвездие Интернет» (www . stars . ru ),

«Russia on the Net» (www.ru ) и другие.

Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.

Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы.

Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.

Часто поисковые системы объединяют в себе как поисковую машину, так и директории.

Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них.

Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом – а среди читателей таких, смеем полагать, подавляющее большинство, – мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершение же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.

Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.

Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.

На чем основан поиск

Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean).

Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.

1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим .

2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результа том поиска станут документы, в которых содержится хотя бы одно из этих слов .

Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.

По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».

3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, ко торые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исклю чает. Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще.

На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.

Давайте рассмотрим примеры работы логического оператора «НЕ».

По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.

Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скоби. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки.

Так, запрос пушистые И (собаки ИЛИ кошки)

позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки)

выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.

Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.

Как поиск реализован

Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком.

Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.

Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.

При этом важно понять, как паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, паук возвращается на нее, н у, например, через две недели. И если видит, что никаких изменений не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. А если и тогда не обнаружит ничего нового, то наведаетсяя сюда еще позже, месяца через полтора-два.

Вот почему нередко бывает так, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по полученной ссылке безрезультатна – вероятнее всего, никакой страницы уже просто не существует на прежнем месте, но паук на нее давно не заходил, и, соответственно, поисковая система о ее удалении не знает.

Весь комплекс процессов, описанных выше, называется индексацией.

История развития поисковых машин

История эволюции поисковых машин наиболее полно, на наш взгляд, представлена в книге признанных экспертов в области невидимого интернета Криса Шермана и Гарри Прайса «Невидимый Интернет».

До середины 1960-х годов компьютеров было немного. Изолированные друг от друга, они не могли обмениваться информацией.

В 1962 г. профессор Ликлайдер (Licklider) из ведущего технического вуза США – Массачусетского Технологического института – сформулировал концепцию глобальной компьютерной сети «Galactic Network». Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Робертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Таковы предпосылки возникновения сети «ARPANET», которая затем превратилась в то, что сегодня величают Интернетом. Первый узел «ARPANET» появился в 1969 г., и следующие несколько лет к нему подключались университеты и различные контрагенты, работавшие по заказам военного ведомства США.

В 1973 г. американское министерство обороны инициировало новую программу, предполагавшую обеспечивать надежную связь компьютеров между собой с помощью очень большого числа различных соединений. Целью такого решения было повышение устойчивости системы к попыткам массированно нарушить электронные средства коммуникации. Поскольку все это происходило во времена «холодной войны», речь шла об устойчивости к устрашающим последствиям, которыми грозило стратегическое ядерное противостояние. Поскольку «ARPANET» представлял собой одну-единственную сеть, что на системном уровне понижало его способность сопротивляться разрушениям, возникла идея создания «сети из сетей», которая теоретически могла бы быть бесконечно большой. Этот проект и назвали «Internetting», а саму сеть «Internet».

По мере того, как количество присоединенных к Интернету машин увеличивалось, объективно назрел вопрос о необходимости инструментов, позволяющих легко находить текст и другие файлы на удаленном компьютере, в идеале – на любом, где бы он ни располагался в Сети.

Доступ к файлам на самых ранних этапах развития Интернета осуществлялся в два этапа, каждый из которых выполнялся вручную: специальные команды вводились с клавиатуры. Кстати, тогда компьютеры могли управляться лишь специалистами, способными вводить команды в соответствующую строку. Графического интерфейса, позволяющего комфортно работать с машиной неподготовленному человеку, еще не изобрели. Так вот первым делом с помощью программы Telnet устанавливалось прямое соединение с компьютером, на котором находится нужный файл. На данном этапе лишь налаживалась связь, ничего и никуда в этот момент еще не передавалось. И только затем с помощью специальной программы – FTP – можно было этот конкретный файл взять.

Очевидно, что на поиски нужного документа уходила масса времени: требовалось знать точный адрес компьютера, на котором он находится.

Между тем файлов становилось все больше, интерес к ним постоянно рос, и для того, чтобы найти адрес одного из них, обычно приходилось обращаться в дискуссионные группы с просьбой о помощи и в надежде на то, что кто-нибудь из собеседников подскажет заветный адрес, по которому хранится нужная информация.

В результате, стали появляться специальные FTP-серверы, которые представляли собой хранилище файлов, организованных в директории, по принципу хранения информации на персональном компьютере. Такие серверы существуют и по сей день.

Первый работоспособный, общедоступный инструмент поиска файлов, хранящихся на FTP-серверах, назывался «Арчи» (Archie) и был создан в 1990 г. группой системных администраторов и студентов старших курсов Университета Мак Джил (McGill) в Монреале. «Арчи» был прототипом сегодняшних поисковых машин, но значительно более примитивным и ограниченным в своих возможностях. Он бродил по Интернету, разыскивал файлы на разных FTP-серверах и загружал список директорий каждого найденного сервера на собственный, формируя общий каталог.

Этот каталог затем обрабатывался и хранился в центральной базе данных, внутри которой можно было организовать поиск. Поиск на собственном компьютере к тому моменту существовал уже издавна и, несмотря на то, что тоже требовал ввода команд, трудностей в работе не создавал. Однако без специальной подготовки использовать компьютер полноценно человек не мог. База данных находилась в университете Мак Джилл и обновлялась ежемесячно.

В 1991 г. команда Марка Мак Кахилла (Mark McCahill) из Университета Миннесоты создала программу «Голден Гофер» (Golden Gopher – в переводе с английского «золотоискатель» или «старатель»), которая совмещала в себе оба протокола – Telnet и FTP. Все, что нужно было сделать пользователю для получения доступа к нужной информации, – щелкнуть по гиперссылке, приведенной в меню. Таким образом, впервые в истории вводить какие-либо команды уже не требовалось, так что отныне по ресурсам Интернета люди могли «бродить» и без специальной подготовки.

Программа показывала пользователю последовательно возникающие пошаговые меню, что позволяло ему без проблем идти в глубь базы директорий, все более приближаясь к специфическим документам, которые и составляли цель поиска. Этот алгоритм, по сути, сохранен и сегодня в Каталогах, расположенных в Интернете.

Стало возможно получать как текстовые документы, так и графические, и музыкальные, без привязки к какому-то определенному формату. А самое главное, стало в принципе возможно легко найти и получить в Интернете нужную информацию.

Однако проблемы все же оставались. Одна из них, и довольно серьезная, была связана с тем, что компьютеры были построены на разных платформах, которые порой не понимали друг друга. Тут можно провести аналогию с людьми, которые говорят на совершенно разных языках и потому не могут построить более или менее осмысленную беседу. В те времена между собой конкурировали не операционные системы, как сейчас, а производители компьютерного «железа». Сегодня в меньшей степени важно, кто произвел компьютер. Гораздо существеннее, что на нем установлено: Windows, Linux, Mac OS или какая-то другая система. А тогда именно производители «железа» определяли лицо Интернета.

Объективно назревала идея, согласно которой компьютеры разных платформ должны иметь возможность работать в одном протоколе, позволяющем просматривать страницы вне зависимости от того, на какой конкретно машине эти страницы созданы. Требовалось придумать такой универсальный протокол и сделать его удобным для пользователей. Первым, кто догадался объединить известную к тому времени простую форму гипертекста с универсальными коммуникационными протоколами, был Тим Бернерс-Ли (Tim Berners-Lee).

Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language, то есть Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором человек открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на машине, работающей под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл будет выглядеть точно так же и на компьютере, работающем под управлением Windows.

Затем Бернерс-Ли придумал Universal Resource Identifier – метод стандартизации адресов, при котором компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL, это то, что в привычном для пользователя виде обычно начинается с «www»). Наконец, изобретатель собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.

Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития глобальной Сети преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появилось несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем отправляться за чем-то в Интернет, предлагали поискать необходимые сведения на этих серверах.

При этом основная проблема заключалась в том, чтобы отыскать страницы, которые в принципе можно бы было индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственный способ, позволявший добиться этого, состоял в поиске ссылки на страницу и переходе по этой ссылке, с последующим добавлением найденного ресурса к индексу.

Однако вскоре возникла еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, так как на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенным множество других адресов, пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая позволила бы игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых. Иначе это грозило проблемой с ресурсами.

В 1993 г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный «World Wide Web Wanderer» или просто «Вандерер», что в переводе с английского означает «скиталец» или «странник». Дело в том, что Грей заинтересовался статистикой. Результатом такого увлечения стало появление «странника»: изобретение было призвано помочь студенту проанализировать размеры Интернета и скорость его роста. «Вандерер» просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого найденного адреса. Несмотря на то, что создатель робота не преследовал никаких других целей, его детище, фактически дебютировавшее в «забеге» прогрессивных интернет-находок, легло в основу более сложных программ, которые к умению «скитальца» перемещаться по Сети добавили способность сохранять содержимое страниц в базе данных после их посещения.

Случилось так, что 1994 г. стал переломным в истории создания поисковых машин. Студент выпускного курса Вашингтонского университета Брайан Пинкертон (Brian Pinkerton) устал от бесконечной череды электронных писем, которые посылали ему друзья, с информацией о хороших сайтах, найденных ими в Интернете. Безусловно, сайты ему были нужны, однако шквал посланий с их адресами раздражал, а посещение всех страниц отнимало уйму времени. Однако Пинкертон нашел решение проблемы – он создал робота, которого назвал WebCrawler (что-то вроде «вездеход для Интернета»). «ВебКраулер», как и «Вандерер», ползал со страницы на страницу, запоминая при этом весь текст Web-документа и сохраняя его в базе данных, которая была доступна поисковым словам. Изобретатель представил свое детище публике в апреле 1994 г., причем сделал это виртуально – через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю она начала расширяться, причем ежедневный прирост составлял более 100 новых серверов. Так родилась первая поисковая машина.

Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.

1994 г. – WebCrawler, Lycos, Yahoo!

1995 г. – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.

1996 г. – HotBot, LookSmart.

1997 г. – NorthernLight.

1998 г. – Google, InvisibleWeb.com.

Русскоязычные поисковые машины появлялись в такой последовательности:

2004 г. – русскоязычная версия Google (www.google.ru) и русскоязычная версия Yahoo! (http://ru.yahoo.com).

Из чего состоит сайт

Прежде, чем перейти к описанию языка запросов поисковых машин, рассмотрим, из каких элементов, с которыми предстоит работать пауку, состоит обычно сайт.

Надо сказать, что язык HTML достаточно прост и логичен. Он представляет собой способ разбивки текста с помощью специальных элементов – тегов, которые определяют структуру и внешний вид текста при просмотре его в браузере. О тегах следует знать, что они всегда парные и что они бывают открывающими (обозначают начало определенного форматирования) и закрывающими (обозначают его окончание). Закрывающий тег – такой же по написанию, как открывающий, но перед ним стоит косая черта.

Приведем пример очень простого сайта (рис. 1).

Рис. 1. Пример сайта, как его видно в браузере Мозилла Файрфокс .

Наверху страницы, изображенной на рисунке, то есть не в тексте сайта, а на верхнем поле рамки страницы, рядом с круглым значком браузера, расположена надпись: «Показываем устройство сайта». Она находится в так называемом заголовке страницы (который заключен между открывающим тегом и закрывающим тегом ). Обращаем ваше внимание на то, что это заголовок именно всей страницы, а не текста.

Посередине представленного рисунка жирным курсивом выведено: «Это простой сайт». Данная надпись – и есть заголовок текста. Шрифт фразы «Это простой сайт» по размеру превосходит шрифт текста на сайте, он специально выделен как заголовок текста. При разметке с помощью HTML этот текст расположен ниже тега , но при этом вместе с тегом <TITLE> находится внутри тега <Head>. То есть содержимое, заключенное в <TITLE>, – это часть того, что находится в <Head>. Такое расположение дает дополнительную возможность пауку лучше определять ключевые слова на сайте. Ведь если слова вынесены в заголовок текста или, тем более, всей страницы, вероятность того, что страница и текст посвящены теме, формулируемой этими словами, повышается.</p><p>Ниже фразы «Это простой сайт» приведены четыре варианта написания основного текста сайта:</p><p>– обычный;</p><p>– жирный (пишется под тегом <B>);</p><p>– курсив (пишется под тегом <i>);</p><p>Основной текст сайта, вне зависимости от того, каким вариантом шрифта он написан, располагается внутри тега <BODY>. Именно содержимое тега <BODY> представляет собой основной объект для паука и рассматривается им как текст страницы (собственно, это действительно текст страницы).</p><p>Чтобы увидеть внутреннюю разметку сайта, надо в браузере Мозилла Файрфокс навести курсор на любой незанятый текстом участок поля и нажать правую кнопку мыши. В всплывающем меню следует выбрать пункт «Просмотр исходного кода страницы».</p><p>Применительно к сайту, который мы рассматривали на рис. 1, этот исходный код будет выглядеть следующим образом:</p><blockquote><p>Показываем устройство сайта:</p><p><SPAN STYLE=«font-size: large»>Это простой сайт</p><p>Это текст на сайте. Обычный шрифт.</p><p>Жирный шрифт.</p><p>Курсив. </I></p> </blockquote><p>Здесь можно увидеть все элементы, описанные нами выше. Кроме того, в исходном коде видны теги <P>Которые обеспечивают расположение текста в новой строке и с промежутком по отношению к тексту, расположенному в предыдущей строке.</p><p>Разметка HTML по умолчанию не предполагает переноса текста и его форматирования. Поэтому текст, не содержащий никаких тегов, воспроизводится подряд, но с соблюдением пробелов между словами. Для того чтобы текст оказался написан не просто в новой строке, а с промежутком относительно находящейся выше строки, используется, как мы уже показали, тег <P>А для того, чтобы текст был написан в новой строке, но без промежутка между выше– и нижерасположенной строками, применяется тег <BR>.</p><p>Начало сайта, созданного с помощью разметки HTML, отмечено тегом <HTML>, а его окончание – тегом </HTML>.</p> <p>Проблема поиска и средства его организации</p> <p>Гигантские и непрерывно увеличивающиеся объемы доступной в Интернет информации, в т.ч. оперативной, делает проблему поиска необходимых сведений весьма актуальной и сложной. Скорость поиска нужной информации определяет в значительной степени профессионализм пользователя Интернет. Стоит сказать, для автоматизации ϶ᴛᴏй задачи разработаны различные, как зарубежные, так и отечественные системы поиска, представляющие собой Web-страницы специального вида. При этом, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области.</p> <p>По оценке, опубликованной в журнале Nature от 8 июля 1999 г., число публично индексируемых Web-страниц составляло 800 млн. Спустя год автор исследования (Стив Лоуренс из института NEC Research Institute) полагал, что их число увеличилось почти вдвое – до 1,5 млрд. Даже лучшие поисковые механизмы индексируют не более чем одну страницу из шести. Стоит сказать, для того ɥᴛᴏбы извлечь полезную информацию из сети Интернет, нужно знать, где и как вести поиск.</p> <p>Имеющийся в Internet Explorer инструмент Поиск упрощает обращение к средствам поиска, избавляя от знания адресов поисковых машин. При этом лучше непосредственно обращаться к поисковым системам, загружая ϲᴏᴏᴛʙᴇᴛϲᴛʙующую страницу.</p> <p>По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:</p> <p>каталоги и специализированные базы данных;</p> <p>поисковые системы;</p> <p>метапоисковые системы.</p> <p>Каталоги и базы данных</p> <p>Каталоги в WWW аналогичны систематическим библиотечным каталогам. Поиск по каталогам состоит в последовательном движении по иерархическому списку ссылок, называемых рубриками или категориями. На первой странице каталога содержится ссылки на крупные темы, например, Культура и искусство; Медицина и здоровье; Общество и политика; Бизнес и экономика; Развлечения и др. Щелчок мыши на ϲᴏᴏᴛʙᴇᴛϲᴛʙующей ссылке (категории) открывает страницу, содержащую ссылки, детализирующие выбранную тему (рубрику) Двигаясь вниз по детализирующим категориям, можно найти страницу с нужной информацией. На каждой странице, открываемой при движении по каталогу тем или иным способом, указывается последовательность просмотренных вложенных рубрик, например, Деловой мир: Финансы: Аналитика и т.д.</p> <p>Все каталоги создаются и поддерживаются в актуальном состоянии вручную специалистами, аналогично тому, как библиографы составляют и поддерживают библиотечные каталоги. Уместно отметить, что описание документа делается либо составителями каталога, либо автором. Благодаря ϶ᴛᴏму, содержание страниц, включенных в каталог, наиболее адекватно ϲᴏᴏᴛʙᴇᴛϲᴛʙует рубрике, к кᴏᴛᴏᴩой они отнесены. Но, учитывая скорость пополнения и изменения информации в Интернет, «ручной» способ ведения каталогов не позволяет равноценно отражать реальное состояние ресурсов Интернет на данную тему.</p> <p>Поисковые системы</p> <p>(поисковые машины, поисковые серверы, поисковые роботы)</p> <p>Существуют десятки крупных и тысячи малых и специализированных Web-узлов, предназначенных для поиска в Интернете. Средства поиска ϶ᴛᴏй группы позволят пользователю по определенным правилам сформулировать требования к необходимой ему информации (с помощью языка запросов создать запрос) После ϶ᴛᴏго машина поиска автоматически просматривает документы на контролируемых (индексируемых) ею сайтах и отбирает те из них, кᴏᴛᴏᴩые, «по мнению» поискового сервера, ϲᴏᴏᴛʙᴇᴛϲᴛʙуют сформулированным пользователем требованиям (релевантны запросу) В поисковых узлах могут быть использованы собственные индексы Интернета, постоянно обновляемые особыми программами, называемыми пауками (spiders) Программа-паук обследует Web, проверяя каждую ссылку на данной странице, затем на страницах, адресуемых ссылками, и т. д., и сообщает ϲʙᴏему владельцу сведения обо всех страницах для последующей индексации.</p> <p>В результате поиска создается одна или несколько страниц, содержащих ссылки на релевантные запросу документы (Web-страницы) Стоит сказать, для каждой ссылки обычно также указываются дата создания документа, его объем, степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия релевантности запросу, фрагменты текста, характеризующие содержание документа. Щелчок мышью на такой ссылке позволяет загрузить заинтересовавшую страницу. В случае очень большого количества найденных документов можно уточнить запрос и в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с ним повторить поиск, но только среди отобранных страниц (такой поиск в разных машинах называется по-разному, но обычно ϶ᴛᴏ – искать в найденном) В ряде машин поиска можно определенным способом поменять ссылку на страницу, содержание кᴏᴛᴏᴩой в наибольшей степени удовлетворяет вашим потребностям, и повторить поиск, потребовав искать похожие.</p> <p>Достоинство автоматизированного поиска состоит по сути в том, что он обеспечивает просмотр очень больших объемов информации, имеющейся в Интернет в данный момент. При этом сложность точного описания запроса, адекватно отражающего ваши информационные потребности, а также еще большая сложность задачи автоматического определения степени ϲᴏᴏᴛʙᴇᴛϲᴛʙия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных «с первого захода»традиционно или очень мало, или чрезмерно велико. В целом поиск с использованием поисковой машины представляет собой итерационный (многоходовой) процесс, в результате кᴏᴛᴏᴩого постепенно уточняется форма запроса.</p> <p>Метапоисковые системы</p> <p>Как отмечалось выше, любая поисковая система просматривает определенный набор серверов и отбирает документы в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с присущими ей критериями. В итоге поиск разными системами по одним и тем же ключевым словам дает различные результаты. Это привело к идее создания так называемых метапоисковых (или мультипоисковых) систем, кᴏᴛᴏᴩые сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым системам. Отметим, что каждая из метапоисковых систем имеет ϲʙᴏй язык запросов. Система переводит сформулированный на ее языке запрос на языки запросов, используемые каждой машиной поиска. Далее, результаты поиска всеми системами объединяются и представляются в ϲᴏᴏᴛʙᴇᴛϲᴛʙующей форме. Естественно, что поиск с помощью метапоисковых систем занимает большее время по сравнению с обычными системами поиска.</p> <p>Обзор наиболее популярных поисковых систем</p> <p>В Интернет имеется большое количество поисковых систем, и каждый пользователь ориентируется на ту, к кᴏᴛᴏᴩой он привык или кᴏᴛᴏᴩую ему посоветовали его коллеги. Воспользуемся краткой характеристикой наиболее популярных поисковых систем, кᴏᴛᴏᴩая приводится на одном из сайтов.</p> <p>1. Google (www.google.com) Самая быстрая и самая большая поисковая система. Проиндексировано более 1,3 миллиарда страниц (из них полностью - немногим более 700 миллионов, про остальные известен только адрес и текст ссылки) Нормально ищет по русскоязычным ресурсам (разумеется, без словоформ), есть возможность выбрать язык интерфейса. Можно включать/исключать результаты с определенных сайтов и/или доменов. В отличие от большинства поисковых систем, Google оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц. Присутствует тематически ориентированный поиск - Apple Macintosh, BSD UNIX, Linux, правительство США и University searches - поиск в ресурсах ведущих научных и учебных институтов.</p> <p>2. Яndex (www.yandex.ru) Лучшая из поисковых систем отечественного производства. Индексирует в основном русскоязычные ресурсы, при ϶ᴛᴏм по возможностям не уступает зарубежным системам. Поиск можно осуществлять точно или в любых словоформах, с ограничением по дате, с указанием сайта или его поддиректории. Можно вести поиск с учетом так называемого индекса цитируемости, искать изображения, скрипты, апплеты; задавать язык документа. Нужные ссылкитрадиционно обнаруживаются уже в первой десятке результатов. Имеет "облегченную" версию (с минимумом элементов дизайна) на http://www.ya.ru.</p> <p>3. AltaVista (www.altavista.com) Предоставляет большое расширение критериев поиска: в Advanced search есть выбор отрезка времени, к кᴏᴛᴏᴩому относится дата создания или изменения ресурса, поддержка 25 языков; присутствует возможность выдачи одного результата на сайт (϶ᴛᴏ сужает круг поиска без ущерба для качества) Power search имеет стандартный набор возможностей. До недавнего времени AV была крупным порталом, но по причинам финансового (и не только) характера значительно сократила количество сервисов.</p> <p>4. Yahoo! (www.yahoo.com) Важно заметить, что один из первых поисковых серверов в Интернет. Помимо стандартного набора функций, позволяет отбирать ресурсы по дате (4 года, 1, 3, 6 месяцев, неделя, 1, 3 дня) Поддерживает возможность указания знака "*" вместо любой последовательности символов в ключевых словах. На Yahoo! составлен большой структурированный каталог категорий (categories) Сначала поиск осуществляется в них, потом в собственном архиве, потом - с использованием системы Google. Поиск в категориях дает хорошие результаты - их немного и ϲᴏᴏᴛʙᴇᴛϲᴛʙие хорошее.</p> <p>5. Lycos (www.lycos.com) В последнее время - одна из самых популярных систем. При всем этом никаких особенных возможностей она не предоставляет - "AND" "OR", поиск фраз, обязательное присутствие/отсутствие слова; в расширенных возможностях - поиск в названии, URL, имени хоста и/или названии домена; 25 языков, включая русский, - словом, весь "общепринятый" набор. Можно указать тип содержания ресурса - авто, книги, ftp, download, новости и т.д. Очевидно, популярность Lycos - следствие масштаба ϶ᴛᴏго крупного проекта.</p> <p>6. Рамблер (www.rambler.ru) До недавнего времени самая известная русская поисковая система. Расширенный поиск не позволяет искать фразы, а обычный поиск до февраля ϶ᴛᴏго года редко выдавал приемлемые результаты. С февраля в ϶ᴛᴏй системе используется улучшенный механизм поиска, сменился дизайн, но по качеству Rambler все равно не сравнялся с Яндексом и Апортом (по мнению автора, проводящего анализ поисковых систем) На сайте присутствует рейтинг-каталог ресурсов Rambler Top 100, один из признанных источников статистической информации об интернет-проектах.</p> <p>7. Апорт (www.aport.ru) Другой хороший русский поисковый сервер. Поиск ведется по тексту (только во всех словоформах) и по URL, с использованием логических операторов и оператора "…" (однако стоп-слова во фразе все равно игнорируются), по дате и в отдельных полях (название, описание и т.д.), поддерживаются мета-символы * и! Представление результатов поиска наиболее хорошо оформлено по сравнению с остальными русскими поисковыми машинами. Некᴏᴛᴏᴩые сомнения вызывает дизайн главной страницы, кᴏᴛᴏᴩая явно перегружена информацией. Имеется немного более "легкая" версия на http://aport.ru.</p> <p>Как выбрать поисковую машину</p> <p>При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего) Обычно ϶ᴛᴏ все называют одним словом - релевантность, то есть ϲᴏᴏᴛʙᴇᴛϲᴛʙие ответа вопросу.</p> <p>1. Охват и глубина</p> <p>Под охватом имеется в виду объем базы поисковой машины, кᴏᴛᴏᴩый измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.</p> <p>Как проверить: Некᴏᴛᴏᴩые машины пишут на ϲʙᴏем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (ɥᴛᴏбы исключить влияние языка запросов, в т.ч. – различного трактования пробела), и при ϶ᴛᴏм смотреть на статистику результатов, выдаваемую машиной – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.</p> <p>Глубину хождения робота проверить сложнее - для ϶ᴛᴏго надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на кᴏᴛᴏᴩые можно попасть только, например, за 6 переходов по ссылкам.</p> <p>2. Скорость обхода и актуальность ссылок</p> <p>Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Не стоит забывать, что важным показателем качества поисковой машины (ее робота) будет не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и побудут, страницы на них обновляются. Ссылки, кᴏᴛᴏᴩые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно ϲᴏᴏᴛʙᴇᴛϲᴛʙовать запросу.</p> <p>Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой машины представляется обычно именем ϲʙᴏей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только ϲʙᴏего сайта, по϶ᴛᴏму остается экспериментальный способ.</p> <p>Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковые машины и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Стоит сказать, для определения актуальности ссылок – проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ более не существует.</p> <p>3. Качество поиска (субъективный показатель)</p> <p>Стоит сказать, что каждая поисковая машина имеет ϲʙᴏи алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.</p> <p>Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при ϶ᴛᴏм те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»)</p> <p>Кроме релевантности, существуют важные пользовательские характеристики.</p> <p>4. Скорость поиска</p> <p>В случае если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.</p> <p>Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня)</p> <p>5. Поисковые возможности (работа с языком документа, язык запросов)</p> <p>Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Стоит сказать - полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме ϶ᴛᴏго, в языке HTML существуют тэги, кᴏᴛᴏᴩые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.)</p> <p>Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некᴏᴛᴏᴩые умеют искать словосочетания или слова на заданном расстоянии - ϶ᴛᴏ часто важно для получения разумного результата. Дополнительной возможностью будет поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, кᴏᴛᴏᴩый не требует знания операторов.</p> <p>Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е) Отметим, что тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.</p> <p>6. Дополнительные удобства</p> <p>Это - дополнительные возможности, кᴏᴛᴏᴩые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.</p> <p>Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с данными возможностями.</p> <p>Понятно, что указанный анализ займет некᴏᴛᴏᴩое время. Кроме ϶ᴛᴏго, поисковые машины, как и весь Интернет, не стоят на месте. При этом, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, ϶ᴛᴏму стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.</p> <p>На Yandex.ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html) В порядке убывания данные опроса распределились следующим образом: Интернет используют как справочник (23,76%), инструмент исследования (15,.45%), развлечение (14,15%), и только на четвертом месте - источник новостей (12,32%) Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете: информации, хорошего поиска и порядка (в т.ч.: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности)</p> <p>ОТВЕТЬТЕ НА ВОПРОСЫ:</p> <p>Назовите, какие способы организации поиска существую в сети Интернет?</p> <p>Как осуществляется поиск информации в каталогах и базах данных?</p> <p>Как заносится информация в каталоги и базы данных?</p> <p>Что в Интернет относится к поисковым системам?</p> <p>Как формируется информационная база данных в поисковых машинах?</p> <p>С чего начинается поиск информации в поисковых системах?</p> <p>Что такое запрос?</p> <p>Как осуществляется поиск информации в поисковых машинах?</p> <p>Что понимают под релевантностью запросу?</p> <p>Что можно предпринять в случае очень большого количества найденных документов при дальнейшем поиске?</p> <p>Что такое метапоисковые системы?</p> <p>В чем состоит принципиальное отличие метапоисковых систем от обычных поисковых машин?</p> <p>Какие из следующих систем будут метапоисковыми:</p> <p>Назовите наиболее популярные отечественные поисковые системы?</p> <p>Назовите наиболее популярные зарубежные поисковые системы?</p> <p>Какие две составляющие важны при поиске информации в сети Интернет?</p> <p>Какие характеристики определяют эффективность поисковых систем при проведении поиска информации в сети Интернет?</p> <p><b>Пользовательское соглашение: </b><br> Интеллектуальные права на материал - Информационные компьютерные сети - Борисов Н.А., Лукин А.А. принадлежат её автору. Данное пособие/книга размещена исключительно для ознакомительных целей без вовлечения в коммерческий оборот. Вся информация (в том числе и "Тема 3. Поиск информации в сети ИНТЕРНЕТ") собрана из открытых источников, либо добавлена пользователями на безвозмездной основе. <br> Для полноценного использования размещённой информации Администрация проекта сайт настоятельно рекомендует приобрести книгу / пособие Информационные компьютерные сети - Борисов Н.А., Лукин А.А. в любом онлайн-магазине. <br></p> <p>Тег-блок: Информационные компьютерные сети - Борисов Н.А., Лукин А.А., 2015. Тема 3. Поиск информации в сети ИНТЕРНЕТ.</p> <p>(С) Юридический репозиторий сайт 2011-2016</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> </div> <div class="clr"></div> </article> <div class="block-layout-one"> <p class="title"><span>Читайте <strong>также</strong></span></p> <div class="row"> <div class="item grid_4"> <a href="/fleshka-vosstanovleniya-operacionnoi-sistemy-win-7-10-vosstanovlenie/"><img src="/uploads/3dc30bc8b4f1b84bd2d909c41bdfe422.jpg" / loading=lazy></a> <div> <span class="btn-blue"><a href="/category/gadgets/" class="btn-blue">Гаджеты</a></span> <h3><a href="/fleshka-vosstanovleniya-operacionnoi-sistemy-win-7-10-vosstanovlenie/">Восстановление системы Windows</a></h3> <p class="date">2024-05-19 16:26:30</p> </div> </div> <div class="item grid_4"> <a href="/pri-zavershenii-raboty/"><img src="/uploads/4d0646252237281bb7478642b234e906.jpg" / loading=lazy></a> <div> <span class="btn-blue"><a href="/category/1c-enterprise/" class="btn-blue">1C Предприятие</a></span> <h3><a href="/pri-zavershenii-raboty/">При завершении работы</a></h3> <p class="date">2024-05-19 16:26:30</p> </div> </div> <div class="item grid_4"> <a href="/podklyuchit-internet-mts-krym-superbit-smart/"><img src="/uploads/712b1822d8b28ae7c7edb65ca221c2f0.jpg" / loading=lazy></a> <div> <span class="btn-blue"><a href="/category/security/" class="btn-blue">Безопасность</a></span> <h3><a href="/podklyuchit-internet-mts-krym-superbit-smart/">Подключить интернет мтс крым</a></h3> <p class="date">2024-05-18 17:09:35</p> </div> </div> <div class="item grid_4"> <a href="/pervyi-telefonnyi-istoriya-telefonov-vozniknovenie-i-razvitie-ot-java-do/"><img src="/uploads/542e14dee53821b365ce35db76e70a59.jpg" / loading=lazy></a> <div> <span class="btn-blue"><a href="/category/programs/" class="btn-blue">Программы</a></span> <h3><a href="/pervyi-telefonnyi-istoriya-telefonov-vozniknovenie-i-razvitie-ot-java-do/">История телефонов: возникновение и развитие</a></h3> <p class="date">2024-05-16 16:15:35</p> </div> </div> </div> <div class="row"> </div> </div> </div> <aside id="sidebar" role="complementary"> <div class="widget subscribe-widget"> <h3 class="widget-title">Подпишись на наш дайджест</h3> <div> <form action="/" class="frmAjx searchform subscribeform" method="post"> <input type="text" class="text" name="ch_elem[email]" data-placeholder="Email" value="Email" /> <input type="submit" value="Подписаться" /> </form> </div> </div> <div class="widget"> <h3 class="widget-title">Последние статьи</h3> <ul class="recent-posts"> <li> <div class="image"> <a href="/mod-dlya-polucheniya-veshchei-iz-modov-not-enough-items-mod-na-veshchi-mody-dlya-skairima/"><img src="/uploads/3005f1b03064dc171a32eee0b7f6e556.jpg" alt="Not Enough Items — мод на вещи Моды для скайрима additemmenu" / loading=lazy></a> </div> <div class="text"> <h3><a href="/mod-dlya-polucheniya-veshchei-iz-modov-not-enough-items-mod-na-veshchi-mody-dlya-skairima/">Not Enough Items — мод на вещи Моды для скайрима additemmenu</a></h3> <p class="date">2024-05-16 16:15:35</p> </div> </li> <li> <div class="image"> <a href="/exp-koshelek-expanse-perspektivnaya-kriptovalyuta-na-tehnologii-efiriuma/"><img src="/uploads/2ee2589c59437da0219293dfb2e004d0.jpg" alt="Expanse — перспективная криптовалюта на технологии Эфириума" / loading=lazy></a> </div> <div class="text"> <h3><a href="/exp-koshelek-expanse-perspektivnaya-kriptovalyuta-na-tehnologii-efiriuma/">Expanse — перспективная криптовалюта на технологии Эфириума</a></h3> <p class="date">2024-05-15 16:32:36</p> </div> </li> <li> <div class="image"> <a href="/govoryashchie-chasy-podborka-govoryashchih-chasov-dlya-android-naidi/"><img src="/uploads/2397fcb25dfe94edad360abdcfa8ddac.jpg" alt="Подборка говорящих часов для андроид Найди предложения говорящие часы" / loading=lazy></a> </div> <div class="text"> <h3><a href="/govoryashchie-chasy-podborka-govoryashchih-chasov-dlya-android-naidi/">Подборка говорящих часов для андроид Найди предложения говорящие часы</a></h3> <p class="date">2024-05-14 16:04:17</p> </div> </li> <li> <div class="image"> <a href="/1s-roznica-udalenie-pomechennyh-buhuchet-info-pochemu-ne/"><img src="/uploads/0f1f8deae75e0cf566d9017104d486f3.jpg" alt="1с розница удаление помеченных" / loading=lazy></a> </div> <div class="text"> <h3><a href="/1s-roznica-udalenie-pomechennyh-buhuchet-info-pochemu-ne/">1с розница удаление помеченных</a></h3> <p class="date">2024-05-13 16:23:09</p> </div> </li> <li> <div class="image"> <a href="/linkedin-zablokirovan-chto-dalshe-est-li-zhizn-posle-blokirovki-linkedin/"><img src="/uploads/4ecac1361ca346ca21487dc500b3c6e8.jpg" alt="Есть ли жизнь после блокировки?" / loading=lazy></a> </div> <div class="text"> <h3><a href="/linkedin-zablokirovan-chto-dalshe-est-li-zhizn-posle-blokirovki-linkedin/">Есть ли жизнь после блокировки?</a></h3> <p class="date">2024-05-13 16:23:09</p> </div> </li> <li> <div class="image"> <a href="/ne-otkryvaetsya-rom-manager-premium-proshivka-android-planshetov-s/"><img src="/uploads/romm01ub-80x80.jpg" alt="Прошивка Android планшетов с помощью ROM Manager" / loading=lazy></a> </div> <div class="text"> <h3><a href="/ne-otkryvaetsya-rom-manager-premium-proshivka-android-planshetov-s/">Прошивка Android планшетов с помощью ROM Manager</a></h3> <p class="date">2024-05-13 16:23:09</p> </div> </li> <li> <div class="image"> <a href="/besplatnye-failoobmenniki-kak-zalit-foto-i-poluchit-ssylku-na/"><img src="/uploads/f7e7946c6d121fd564e95d7c94e7d0ae.jpg" alt="Бесплатные файлообменники — как залить фото и получить ссылку на картинку Куда заливать изображения" / loading=lazy></a> </div> <div class="text"> <h3><a href="/besplatnye-failoobmenniki-kak-zalit-foto-i-poluchit-ssylku-na/">Бесплатные файлообменники — как залить фото и получить ссылку на картинку Куда заливать изображения</a></h3> <p class="date">2024-05-12 16:10:40</p> </div> </li> <li> <div class="image"> <a href="/sozdanie-paneli-instrumentov-v-autocad-chto-delat-esli-v-autocad-propala/"><img src="/uploads/1a8556d0f8490cec7538c0a7aa483f8f.jpg" alt="Что делать если в AutoCAD пропала панель инструментов?" / loading=lazy></a> </div> <div class="text"> <h3><a href="/sozdanie-paneli-instrumentov-v-autocad-chto-delat-esli-v-autocad-propala/">Что делать если в AutoCAD пропала панель инструментов?</a></h3> <p class="date">2024-05-12 16:10:40</p> </div> </li> <li> <div class="image"> <a href="/ustanovka-mongodb-ustanovka-mongodb-na-microsoft-windows-ustanovka-draiverov/"><img src="/uploads/cb2aff073073f33cfcba0e899a793aca.jpg" alt="Установка MongoDB на Microsoft Windows" / loading=lazy></a> </div> <div class="text"> <h3><a href="/ustanovka-mongodb-ustanovka-mongodb-na-microsoft-windows-ustanovka-draiverov/">Установка MongoDB на Microsoft Windows</a></h3> <p class="date">2024-05-11 16:29:25</p> </div> </li> <li> <div class="image"> <a href="/mikrofon-chto-nuzhno-dlya-raboty-pravilno-vybiraem-mikrofon-luchshie-byudzhetnye/"><img src="/uploads/00cd4f846a7d057ca01ba4239278a1e0.jpg" alt="Правильно выбираем микрофон" / loading=lazy></a> </div> <div class="text"> <h3><a href="/mikrofon-chto-nuzhno-dlya-raboty-pravilno-vybiraem-mikrofon-luchshie-byudzhetnye/">Правильно выбираем микрофон</a></h3> <p class="date">2024-05-10 17:13:30</p> </div> </li> </ul> </div> <div class="widget"> <h3 class="widget-title">Поиск</h3> <form class="searchform" action="/ru/search/"> <input name="q" type="text" value="" placeholder="Что ищем?"/> <input type="submit" value="Поиск"/> </form> </div> <div class="widget widget-banner"> <h3 class="widget-title">Реклама</h3> <div class="ad-banner-300x250"> </div> </div> </aside> </div> </section> <img src="/assets/news_tape.gif" width="1" height="1" / loading=lazy> <footer id="footer" role="contentinfo"> <div class="inner-wrapper"> <div class="widget"> <h3 class="widget-title">О проекте</h3> <p> <p><a href="" target="_blank">О проекте</a></p> <p><a href="" target="_blank">Рекламодателям</a></p> </p> </div> <div class="widget"> <h3 class="widget-title">Быстрый переход</h3> <ul class="widget-categories"> <li><a href="/category/windows-7/">Windows 7</a></li> <li><a href="/category/windows-xp/">Windows XP</a></li> <li><a href="/category/internet/">Интернет</a></li> <li><a href="/category/windows-10/">Windows 10</a></li> <li><a href="/category/iron/">Железо</a></li> <li><a href="/category/programs/">Программы</a></li> </ul> </div> <div class="widget"> <h3 class="widget-title">Мы в социальных сетях</h3> <noindex> <ul class="recent-comments"> <li> <a target="_blank" href="https://www.facebook.com/sharer/sharer.php?u=https://epatagemedia.ru/open-library---otkrytaya-biblioteka-uchebnoi-informacii/">Facebook</a> </li> <li> <a target="_blank" href="">RSS</a> </li> </ul> </noindex> </div> <div class="widget"> <h3 class="widget-title">Контакты</h3> <ul class="recent-comments"> <li><a href="/feedback/">Форма обратной связи</a></li> </ul> </div> </div> <div id="copyright"> <div class="inner-wrapper"> <div class="row"> <div class="grid_6">© 2024 epatagemedia.ru. Все права защищены.</div> </div> </div> </div> </footer> <div class="b-subscribe-facebook h"> <div class="b-subscribe-facebook-inner">Понравилось? <a href="https://www.facebook.com/sharer/sharer.php?u=https://epatagemedia.ru/open-library---otkrytaya-biblioteka-uchebnoi-informacii/">Лайкни нас на Facebook</a></div> </div> </div> <noindex> <script type="text/javascript" src="/js/build/jquery.v2.js"></script> <script type="text/javascript" src="/js/build/project.v28.js"></script> <script type="text/javascript"> //<![CDATA[ project.pseudoReady(); //]]> </script> <div class="b-counter-list"> <div class="b-counter"> </div> </div> </noindex> </body> </html>