Определение релевантности и популярности

Определение релевантности и популярности сайта

Принцип работы современных коммерческих поисковых машин основан на науке об информационном поиске. Данная наука существует с середины XX века, поисковые системы тогда работали в исследовательских учреждениях, библиотеках, правительственных лабораториях.

На ранней стадии развития поисковых систем ученые выяснили важность двух компонентов, составляющих основу поисковой функциональности. Степень соответствия поискового образа документа поисковому запросу пользователя называется релевантностью.

Релевантность значительно возрастает, если слова (например, мансардные окна), либо фраза (например, быстровозводимые здания) в запросе неоднократно встречаются в контенте, в важных заголовках и подзаголовках, в названии страницы.

Популярность – это относительная важность, которая определяется цитируемостью данного документа, соответствующего запросу пользователя. Цитируемость – это наличие в работе ссылки на другой источник, цитируемость часто встречается в деловых и научных документах. Чем чаще на конкретный документ ссылаются другие, тем выше его популярность.

Критерии релевантность и популярность были использованы через 40 лет для вэб-поиска и называются формой анализа гиперссылки или анализа документа.

Поисковые системы при анализе документа проверяют наличие слов или фразы запроса в наиболее важных разделах документа, таких как название, тэге МЕТА, тэгах заголовков и body. Также они автоматически определяют качество документа.

Анализируя ссылки, поисковые системы определяют не только того, кто ссылается на страничку или сайт, но и определяют то, что они говорят о сайте/страничке. Кроме этого они собирают информацию о том, кто и с кем сотрудничает (по данным записей о регистрации сайта, историй гиперссылок и других достоверных источников). Для данной цели более всего подходят гиперссылки с доменов gov и edu. Поисковыми системами используются контекстуальные данные о сайте, к которому относится страничка (что говорят о сайте, кто ссылается на страничку и прочее).

Анализируя гиперссылки и документы, комбинируются и сравниваются друг с другом сотни факторов, которые определяются индивидуально и отфильтровываются с помощью алгоритмов механизмов поиска (набор инструкций для определения степени важности каждого фактора, для поискового механизма). Впоследствии алгоритм определяет конкретный рейтинг для документов и выдаёт результаты поиска в порядке убывания важности (ранжирования).

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Оставьте мне собщение