Поисковые системы
Учебник предоставлен сайтом
Алан Кнехт (Alan K'necht), Digital Web
Перевод: Максим Россомахин, сайт www.webmascon.com
Ирина Пономарева, Дмитрий Антонов. Источник:
Robin Nobles, перевод
Dave Davies, перевод - http://www.searchengines.com.ua/
-
Даррин Ворд, перевод - http://www.searchengines.com.ua/ -
Phil Craven, перевод -
Дейл Гетч, Перевод - -
Дэниэл Базак, Перевод - -
Phil Craven, http://webworkshop.net/, перевод Webmasterpro.com.ua -
Духанин Роман
Алексей Мощевикин
Sergey R. Lisin
Повышение релевантности (соответствия запросу) сайта и привлечение на него посетителей с поисковиков - штука крайне аморфная. То есть если в одной поисковой машине сайт выходит, скажем по запросу "Теплые булочки с маком" на пятом месте, а значит и в первом листе, то другой выкинет его эдак двадцать седьмым, и соответствено - "нереферероспособным".
Вячеслав Тихонов
Вячеслав Тихонов,
, #2 (2000)
Михаил Талантов, КомпьютерПресс N 9, 1999
Михаил Талантов, КомпьютерПресс N 7, 1999
Михаил Талантов, КомпьютерПресс N 7, 1999
Михаил Талантов, КомпьютерПресс N 5, 1999, с 114
Павел Храмцов, из учебных материалов конференции ,- Подборка статей и технической информации по работе и характеристикам поисковых машин
А.Аликберов, ЦИТ
Е. Колмановская, CompTek International
А. Аликберов,
А. Аликберов,
Перевод А. Аликберова,
Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
- Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
- Тэги, в которых эти слова располагаются.
- Местоположение искомых слов в документе.
- Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа. Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).
- Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
- Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
- слова в <title> заголовке имеют высший приоритет;
- слова в начале страницы;
- слова в ссылках;
- если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.
В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы организации поисковых предписаний. AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:
- слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;
- ключевые фразы, находящиеся в начале странички;
- ключевые фразы в ALT - ссылках
- ключевые фразы по количеству вхождений\присутствия слов\фраз;
К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском. Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска. OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования. Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:
- слова в заголовке <title> имеют наивысший приоритет;
- слова в теге keywords, description и частота вхождений\повторений в самом тексте;
- при повторении одинаковых слов рядом выбрасывает из индекса
- Допускает до 1024 символов для тега keywords, 200 символов для тэга description;
- Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;
Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске. WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.