Закрыть окно

Узнайте стоимость

и получите от нас выгодное коммерческое предложение

Ваша заявка успешно отправлена

Как работают поисковые системы?

23.01.2012

Давайте рассмотрим, какие существуют основные компоненты поисковых систем.

1. Поисковый робот. Проходя по страницам, запоминает их и заносит информацию в базу данных.
2. Индексация. Запоминаются слова, и строится обратный индекс. Для каждого слова строится список документов, где мы видели это слово. Это помогает находить документы, где встречались эти слова и запросы.
3. Ранжирование. Это когда мы их миллионов документов выбираем те лучшие, которые нужны пользователю.
4. Отображение. Когда мы выбрали данные, их необходимо показать пользователю. Необходимо выбрать тот удобный формат, который будет наиболее удобен пользователю.
5. Обслуживание. Включает в себя получение результата, его обработку и последующее отображение.

Первые поисковые системы базировались на контекстном поиске. Они анализировали текст страницы, чтобы определить, насколько страница релевантная данному запросу. Однако практика показала, что этого недостаточно. Одна и та же статья может присутствовать на разных сайтах, в разном виде. Давайте рассмотрим такой пример, пользователь ищет сайт ibm. Однако на самом сайте слово ibm может встречаться несколько раз, а на какой-то статье это слово может встречаться гораздо чаще. Что же делать? Каким образом вывести в поисковую выдачу именно то, что ищет пользователь. Здесь нам помогают ссылки. Ссылки как раз и дают нам недостающую информацию. С помощью ссылок мы можем определить авторитетность сайта. Если на сайт ведут ссылки из более авторитетных источников, то этот сайт тоже будет авторитетным. Из ссылок можно определить, как пользователь передвигается по интернету, куда он может перейти со страницы и т. д.

Также важно учитывать сам текст ссылок. Одной из ранних попыток анализа ссылок был алгоритм хабовых авторитетов. В данном случае анализировались только первые результаты, возвращенные поисковой системой. Поисковая система возвращала первые тысячу результатов и смотрела на ссылки внутри этих результатов. Сайты, которые ведут на другие результаты, считались хабами. На сегодня, самым известным алгоритмом, который учитывает ссылки, является Page Rank. Данный метод не зависит от самого запроса. Он помогает определить, насколько один сайт важнее другого. Этот алгоритм был создан основателями Google. Он отличался тем, что подсчет ведется на полном графе страниц. О чем здесь идет речь. Весь интернет рассматривается как граф, а ссылки рассматриваются как ребра. Считается, что каждое ребро, это голос в поддержку сайта. Чем больше сайт имел важных голосов, тем он лучше. При этом пересчитывается, насколько важен сайт и насколько важны его ссылки. Этот метод не зависит от самого запроса и помогает найти объективную информацию, насколько один сайт важнее другого. Данный метод показал, что поиск может быть совершенно другим. До этой технологии, многие поисковые системы по запросу, например, ibm, не выдавали главной страницы. Этот алгоритм полностью изменил поиск, и сегодня вариацию Page Rank, в той или иной мере используют во всех поисковых системах.

Следующий важный момент, это предоставление результатов пользователю. Пользователь должен понять, насколько важны для него эти результаты. Было испробовано множество разных интерфейсов, и оказалось, что наилучший интерфейс это простейший интерфейс с рассортированными по важности результатами. Здесь важной деталью являются сниппеты. Это маленькие фрагменты текста, которые описывают, насколько данный документ относится к запросу. В тексте подсвечиваются слова запросы, и выбираются предложения, по которым можно понять, что это за документ. Теперь давайте ответим на вопрос. Какие основные компоненты успешной поисковой системы?

1. Информационный поиск.

2. Анализ ссылок.

3. Анализ текста ссылок.

4. Простой интерфейс.

5. Понятные сниппеты.

6. Тот секретный компонент, который различает поисковые системы между собой.

Закажите услуги

Закрыть окно
Ваша заявка принята!

Мы свяжемся с вами в ближайшее время.

Яндекс.Метрика