Рейтинговые книги
Читем онлайн Яндекс для всех - М. Абрамзон

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 160 161 162 163 164 165 166 167 168 ... 199

Прежде всего, стало очевидно, что поиск в вебе не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т. п.) одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и большую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов — все эти факторы невозможно сбрасывать со счета.

Появились эти критерии РЅРµ РЅР° пустом месте. Для научных трудов РІРѕРїСЂРѕСЃ значимости был давно решен Р·Р° счет применения индекса цитирования (РР¦). Рндекс цитирования для научного труда определяется как количество ссылок РЅР° этот труд РІ РґСЂСѓРіРёС… изданиях (РёРЅРѕРіРґР° вместо ссылок РЅР° конкретный труд считают упоминания фамилии автора). Этот принцип определения значимости был перенесен Рё РЅР° веб-страницы, для которых РР¦ подсчитывается РїРѕ количеству ссылок РЅР° нее СЃ РґСЂСѓРіРёС… веб-ресурсов. Для веб-сайта индекс цитирования определяется РїРѕ РР¦ его страниц. Главная особенность такого ранжирования заключается РІ том, что значимость сайта определяется РЅРµ его владельцем, Р° тем, как его оценивают РґСЂСѓРіРёРµ — чем больше ссылок ведет РЅР° сайт, тем ценнее размещенная РЅР° нем информация.

Однако индекс цитирования РІ том РІРёРґРµ, как РѕРЅ здесь описан, РЅРµ дает корректной оценки значимости. Хотя Р±С‹ потому, что зачастую РѕРґРЅР° ссылка СЃ известного Рё уважаемого сайта может значить намного больше, чем сотня ссылок СЃ РЅРёРєРѕРјСѓ РЅРµ известных страниц. Поэтому был предложен более сложный вариант индекса цитирования — взвешенный (РІРР¦). РџСЂРё его подсчете для каждой ссылки вычисляется вес РІ зависимости РѕС‚ того, РЅР° каком сайте РѕРЅР° размещена. Чем авторитетнее сайт, тем выше вес ссылки, РЅР° нем размещенной. РџСЂРё подсчете взвешенного индекса цитирования почти РІСЃРµ поисковые системы исключают РёР· подсчета ссылки, размещенные РЅР° сайтах СЃ бесплатного хостинга, РЅР° немодерируемых форумах, СЂСЏРґРµ иных ресурсов. Также РЅРµ берутся РІ расчет внутренние ссылки (переходы СЃРѕ страницы РЅР° страницу РІ рамках РѕРґРЅРѕРіРѕ сайта).

9.2. PageRank

Наиболее ярким примером такого индекса цитирования служит PageRank. Как описывает теорию индекса Google — "если Страница А ссылается на Страницу В, то Страница А считает, что Страница В — важная страница". Текст ссылки не используется при расчете этого индекса. Зато наоборот, PageRank оказывает влияние на важность ссылок на страницу. Если на страницу указывают многие важные ссылки, то ее ссылки на другие страницы также становятся более важными. Для PageRank важными ссылками считаются ссылки, ведущие на сайт из каталогов DMOZ и Yahoo!.

Базовая формула для расчета значения PageRank чаще всего в соответствующих статьях бывает представлена в следующем виде:

РіРґРµ:

PRa — PageRank рассматриваемой страницы;

d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не попадет на следующий документ каким-нибудь другим образом);

N — общее количество документов;

PRi — PageRank i-й страницы, ссылающейся на рассматриваемую страницу;

Ci — общее число ссылок на i-й странице.

Значение PR находится РІ пределах РѕС‚ 0 РґРѕ 10 Рё представлено целыми числами. Рменно это значение можно увидеть РІ установленной панели инструментов, хотя действительное значение PR совсем РёРЅРѕРµ. Для удобства Рё упрощения представления индекса цитирования реальные значения были приведены Рє значениям для пользователей. Точные данные Рѕ том, каким образом было выполнено это приведение, отсутствуют, РЅРѕ РІ качестве примера можно воспользоваться следующими данными (табл. 9.1).

Отсюда можно сделать один вывод — увеличить значение PR от 1 до 2 значительно проще, чем подняться со значения 4 до значения 5. Средние по известности сайты, чаще всего, имеют значение PR, равное 4 или 5. Значение 6 имеют хорошо "раскрученные" сайты. 7 или 8 — у ведущих брендов.

Приведенная здесь формула не говорит о том, что расчеты выполняются строго в соответствии с ней. На самом деле происходит постоянное усложнение алгоритма расчета, примером чему может служить осуществленное в ноябре 2003 года специалистами Google изменение алгоритма вычисления PageRank. Это изменение среди англоговорящих вебмастеров получило название "Florida". Однако Google не сделал никаких официальных заявлений по поводу того, что за изменения были внесены. На этом работа над изменениями не остановилась, в компании постоянно ведутся научные работы по модификации алгоритма PageRank.

1 ... 160 161 162 163 164 165 166 167 168 ... 199
На этой странице вы можете бесплатно читать книгу Яндекс для всех - М. Абрамзон бесплатно.

Оставить комментарий