Прямой и Инвертированный индекс в поисковых системах

Максим Михайличенко
Максим Михайличенко
Руководитель компании
16.05.2012

Эту информацию должен знать каждый профессионал, занимающийся продвижением сайта. Для начала давайте разберемся, что такое прямой индекс и что такое обратный индекс.

Прямой индекс

Прямой индекс – это как раз та информация, которую мы можем видеть в сохраненной копии поисковой системы. Ссылку на сохраненную копию можно видеть практически у любых результатов поиска поисковой системы.

Прямой индекс в Яндексе

Почему практически у любых? Потому, что есть способы убрать эту ссылку из выдачи, например, с помощью мета тегов (<meta name="robots" content="noarchive"/> - Для яндекса). В прямом индексе все как и на странице в реальности.

Инвертированный индекс

Инвертированный индекс, к сожалению, обычные люди увидеть не могут. Эта информация доступна только для внутреннего пользования поисковой системы. 

Что такое этот инвертированный индекс?

Это все слова, которые поисковая система смогла обнаружить и сохранить у себя в базе данных. Для этих слов есть определенная информация. Инвертированный индекс делится на две части: контент документов и текста ссылок. В принципе и обе части похожи и по содержанию и по принципам работы.

Разберем одну из частей подробнее.

Есть две таблицы:

1)      Первая фактически представляет из себя некое оглавление. Т.е. есть 2 столбца: термин и порядковые номера строк из второй таблицы, которые относятся к этому термину. Естественно, все термины для оптимизации затрат упорядочены(например, в алфавитном порядке).

2)      Вторая таблица содержит информацию о словопозициях каждого термина из первой таблицы. Каждой стоке присвоен порядковый номер, указанный в первой таблице(первый столбец). Далее в каждой стоке имеется URL, по которому расположен контент, содержащий термин из первой таблицы (второй столбец). Именно по URL происходит упорядочивание в этой таблице. Далее указывается непосредственно словопозиции. Но опять же для оптимизации усилий используют не просто номера слов в документе, а их расстояние от предыдущего вхождения термина (+2,+21,+24…). И конечно же, содержится в этой таблице некоторая мета информация (например, выделение жирным или вхождение в title).

 

Вся эта информация используется поисковой системой для ранжирования документов по релевантности.

Как же это происходит?

Когда пользователь вбивает запрос, поисковая машина разбирает его на термины, добавляя к ним все переформулировки, и ищет все вхождения по инвертированному индексу. Далее эта информация поступает на вход в формулу ранжирования.