Рейтинговые книги
Читем онлайн Яндекс для всех - М. Абрамзон

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 3 4 5 6 7 8 9 10 11 ... 199

Какова психология того, кто ищет информацию? Считается, что наиболее подходящие (релевантные) документы должны быть на первой-второй страницах результатов поиска. Если количество полученных результатов больше, человек вряд ли будет просматривать остальные страницы. Рдаже если в числе найденных есть документ, полностью отвечающий заданным условиям, но находится он на странице из второго десятка, ищущий этот документ не увидит — он просто не дойдет до этой страницы. Поэтому громадное значение приобретает и ранжирование документов в результатах поиска по их релевантности запросу.

По поводу релевантности Яндекс говорит, что это "соответствие ответа вопросу", но при этом важны две составляющие — полнота (ничто не забыто) и точность (отсутствие лишнего).

Релевантность различают как содержательную и формальную. Воспользовавшись словарями, представленными в Яндексе, предложу определения этих понятий:

□ содержательная релевантность — соответствие документа информационному запросу, определяемое неформальным путем;

□ формальная релевантность — соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.

В простейшем случае, релевантность текста определенному запросу — это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4–7 % — меньшего может не хватить, большее чревато тем, что система сочтет текст за поисковый спам и наложит на страницу некий понижающий фильтр или может вообще убрать страницу из результатов выдачи по искомому запросу.

Конечно, каждая поисковая система использует гораздо более сложные способы вычисления релевантности документов запросу пользователя. Тем не менее, несмотря на то что алгоритмы у всех поисковых машин разные, они построены на общих принципах — основные отличия результатов выдачи заключаются не в алгоритмах определения релевантности, а в конкретных способах реализации этих алгоритмов.

Какие же факторы, помимо вхождения слов запроса в текст документа, оказывают дополнительное влияние на его место среди других документов? Каждая поисковая машина, стремясь привлечь качеством выдачи запрашиваемой информации, разрабатывает собственные критерии подсчета релевантности. Это и плотность ключевых слов на странице, и разделы страниц, где находятся эти слова, объем содержания, тексты заголовков и ссылок и многое другое. Учитываются и такие рассчитываемые показатели сайтов, как индекс цитирования, тематический индекс цитирования, Page Rank. Рпри этом происходит постоянное изменение степени влияния на результаты тех или иных параметров, их состав и принцип расчета.

1.2. Как устроена поисковая машина Яndex

Поисковая машина РЇndex относится РєРѕ второму рассмотренному ранее типу поисковых машин. РЈ РЇndexР° есть СЃРІРѕРё пауки-агенты, есть СЃРІРѕР№ Рндекс Рё поисковый механизм. Эта поисковая машина ориентирована РІ первую очередь РЅР° СЂРѕСЃСЃРёР№СЃРєСѓСЋ часть всемирного Рнтернета, С‚.В Рµ. индексируются РІ ней русскоязычные сайты, расположенные РІ доменах ru Рё su. Сделаны небольшие исключения для наиболее авторитетных зарубежных сайтов. Сложнее СЃ русскоязычными сайтами, которые зарегистрированы РІ международных или региональных (государственных) доменах РґСЂСѓРіРёС… стран — com, org, de, us Рё РґСЂСѓРіРёС…, РЅРѕ РѕРЅРё РІСЃРµ же попадают РІ Рндекс Рё учитываются РїСЂРё РїРѕРёСЃРєРµ.

Большинство значимых зарубежных нерусскоязычных сайтов может быть найдено РїРѕ ссылке, РїСЂРё этом, РІ отличие РѕС‚ русскоязычных сайтов, РІ Рндекс РѕРЅРё РЅРµ попадают. Упрощается ситуация РІ том случае, РєРѕРіРґР° Сѓ компаний, таких как BMW, IBM Рё РјРЅРѕРіРёС… РґСЂСѓРіРёС…, появляются русскоязычные версии сайтов, без проблем индексируемые Яндексом.

Поисковая машина — самый востребованный ресурс Яндекса. Ежедневно его посещают около четырех с половиной миллионов посетителей, при этом количество просмотренных поисковых страниц приближается к сорока миллионам. При этом пользователи, выполняющие на нем поиск, этого не замечают — складывается впечатление, что Яндекс работает индивидуально для каждого из них.

Так, при запросе средней "тяжести", то есть при поиске не очень частотного слова, время отклика системы (без учета времени передачи данных по каналу от поисковой системы к пользовательскому компьютеру) исчисляется десятыми долями секунды.

1 ... 3 4 5 6 7 8 9 10 11 ... 199
На этой странице вы можете бесплатно читать книгу Яндекс для всех - М. Абрамзон бесплатно.

Оставить комментарий