Рейтинговые книги
Читем онлайн Яндекс для всех - М. Абрамзон

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 69 70 71 72 73 74 75 76 77 ... 199

Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.

Отдельной задачей стало оптимальное представление и аннотирование сюжета: выбор наилучшего заголовка (зависит от его длины, свежести и максимального соответствия теме) и "цитатной" аннотации, необходимой для короткого и точного описания сюжета. Кроме того, появилась группировка по сюжетам не только текстовых сообщений, но и фото-, аудио- и видеофайлов.

Немного сложно, особенно в плане используемых терминов, но суть все же понятна.

Ранжирование сюжетов

Собрать новости, опубликованные в различных изданиях, в один сюжет — только часть того, что должен предоставить пользователю сервис. Рпо тематикам распределить — тоже только часть. А что из этих новостей вывести на первый план, что можно оставить в общем списке? Очередная задача — какие принципы положить в основу ранжирования.

Безусловно, основными факторами, влияющими на ранжирование, являются свежесть и размер сюжета (не новости как таковой!). Свежесть — это время публикации новостей в сюжете, размер сюжета отражает общий интерес СМРк конкретной теме. Чем интереснее для читателей тема, тем большее количество СМРопубликует новость и даст свои комментарии. Кроме того, учитываются количество и схожесть сообщений от конкретных изданий. Не секрет, что издания, как и веб-сайты, имеют разный рейтинг, складывающийся из многих показателей. Такие издания, как РБК, Inopressa.ru, Лента. ru будут иметь более высокий рейтинг по многим новостным тематикам, нежели региональные издания, чей рейтинг может быть выше в части новостей, касающихся лишь их региона.

Дополнительно для ранжирования сюжетов используется глобальный анализ сходства, позволяющий, в частности, находить интернет-издания с высокой степенью текстуального пересечения и учитывать этот фактор в ранжировании сюжетов.

Еще один показатель, оказывающий влияние на ранжирование сюжетов, — это наша с вами, посетителями Яндекса, работа с поиском. Количество запросов в минуту составляет при обычной дневной загрузке около 2 тыс. Этих данных вполне достаточно для того, чтобы учитывать аномалии запросов для ранжирования сюжетов в Новостях. (Ведь что такое аномалия в запросах — это наш с вами интерес к событиям.)

3.1.2. Формирование новостного блока

У Яндекс. Новостей свыше полутора тысяч информационных партнеров. Казалось бы, зачем информационным изданиям отдавать свои новости для публикации на другом ресурсе? Это должно было бы понижать посещаемость основного поставщика новостей. На самом деле все получается наоборот.

Яндекс. Новости не занимаются републикацией новостей. На новостных страницах размещается лишь заголовок и краткая аннотация. Для того чтобы прочитать новость полностью, посетитель должен будет перейти на сайт-первоисточник. Следовательно, количество посетителей у информационного сайта не только не уменьшается, а наоборот, возрастает.

Для информационных партнеров Яндекс разработал специальную партнерскую программу, РіРґРµ каждый участник принимает РЅР° себя определенные обязательства. Рљ партнерству приглашаются РЅРµ только центральные издания, РЅРѕ Рё региональные, что позволяет Яндекс. Новостям формировать региональные новостные ленты. РќРѕ РЅРµ РІСЃРµ издания РјРѕРіСѓС‚ стать партнерами. Обязательным условием является соблюдение партнерами действующего СЂРѕСЃСЃРёР№СЃРєРѕРіРѕ законодательства. Партнеры службы — профессиональные издания, предоставляющие качественную информацию. Еще РѕРґРЅРѕ условие партнерства РІ том, что транслируемые данные должны находиться РІ СЃРІРѕР±РѕРґРЅРѕРј бесплатном доступе РІ Рнтернете (необходимость регистрации считается ограничением СЃРІРѕР±РѕРґРЅРѕРіРѕ доступа).

Не будут информационными партнерами издания, занимающиеся плагиатом, не имеющие собственных источников информации и публикующие только перепечатки уже опубликованных новостей. Не смогут стать информационными партнерами издания, относящие себя к "желтой" прессе. Повышать посещаемость за счет такого рода новостей не является целью Яндекса.

1 ... 69 70 71 72 73 74 75 76 77 ... 199
На этой странице вы можете бесплатно читать книгу Яндекс для всех - М. Абрамзон бесплатно.

Оставить комментарий