Прямой и Инвертированный индекс в поисковых системах

Прямой и Инвертированный индекс в поисковых системах

16.05.2012
Эту информацию должен знать каждый профессионал, занимающийся продвижением сайта в Туле или другом регионе.
Для начала давайте разберемся, что такое прямой индекс и что такое обратный индекс.

Прямой индекс

Прямой индекс – это как раз та информация, которую мы можем видеть в сохраненной копии поисковой системы. Ссылку на сохраненную копию можно видеть практически у любых результатов поиска поисковой системы.
Прямой индекс в Яндексе
Почему практически у любых? Потому, что есть способы убрать эту ссылку из выдачи, например, с помощью мета тегов (<meta name="robots" content="noarchive"/> - Для яндекса).
В прямом индексе все как и на странице в реальности.

Инвертированный индекс

Инвертированный индекс, к сожалению, обычные люди увидеть не могут. Эта информация доступна только для внутреннего пользования поисковой системы. 
Что такое этот инвертированный индекс?
Это все слова, которые поисковая система смогла обнаружить и сохранить у себя в базе данных. Для этих слов есть определенная информация. Инвертированный индекс делится на две части: контент документов и текста ссылок. В принципе и обе части похожи и по содержанию и по принципам работы.
Разберем одну из частей подробнее.
Есть две таблицы:
1)      Первая фактически представляет из себя некое оглавление. Т.е. есть 2 столбца: термин и порядковые номера строк из второй таблицы, которые относятся к этому термину. Естественно, все термины для оптимизации затрат упорядочены(например, в алфавитном порядке).
2)      Вторая таблица содержит информацию о словопозициях каждого термина из первой таблицы. Каждой стоке присвоен порядковый номер, указанный в первой таблице(первый столбец). Далее в каждой стоке имеется URL, по которому расположен контент, содержащий термин из первой таблицы (второй столбец). Именно по URL происходит упорядочивание в этой таблице. Далее указывается непосредственно словопозиции. Но опять же для оптимизации усилий используют не просто номера слов в документе, а их расстояние от предыдущего вхождения термина (+2,+21,+24…). И конечно же, содержится в этой таблице некоторая мета информация (например, выделение жирным или вхождение в title).
 
Вся эта информация используется поисковой системой для ранжирования документов по релевантности.
Как же это происходит?
Когда пользователь вбивает запрос, поисковая машина разбирает его на термины, добавляя к ним все переформулировки, и ищет все вхождения по инвертированному индексу. Далее эта информация поступает на вход в формулу ранжирования.

Возврат к списку