Шрифт:
Интервал:
Закладка:
Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.
Отдельной задачей стало оптимальное представление и аннотирование сюжета: выбор наилучшего заголовка (зависит от его длины, свежести и максимального соответствия теме) и "цитатной" аннотации, необходимой для короткого и точного описания сюжета. Кроме того, появилась группировка по сюжетам не только текстовых сообщений, но и фото-, аудио- и видеофайлов.
Немного сложно, особенно в плане используемых терминов, но суть все же понятна.
Ранжирование сюжетовСобрать новости, опубликованные в различных изданиях, в один сюжет — только часть того, что должен предоставить пользователю сервис. Рпо тематикам распределить — тоже только часть. А что из этих новостей вывести на первый план, что можно оставить в общем списке? Очередная задача — какие принципы положить в основу ранжирования.
Безусловно, основными факторами, влияющими на ранжирование, являются свежесть и размер сюжета (не новости как таковой!). Свежесть — это время публикации новостей в сюжете, размер сюжета отражает общий интерес СМРк конкретной теме. Чем интереснее для читателей тема, тем большее количество СМРопубликует новость и даст свои комментарии. Кроме того, учитываются количество и схожесть сообщений от конкретных изданий. Не секрет, что издания, как и веб-сайты, имеют разный рейтинг, складывающийся из многих показателей. Такие издания, как РБК, Inopressa.ru, Лента. ru будут иметь более высокий рейтинг по многим новостным тематикам, нежели региональные издания, чей рейтинг может быть выше в части новостей, касающихся лишь их региона.
Дополнительно для ранжирования сюжетов используется глобальный анализ сходства, позволяющий, в частности, находить интернет-издания с высокой степенью текстуального пересечения и учитывать этот фактор в ранжировании сюжетов.
Еще РѕРґРёРЅ показатель, оказывающий влияние РЅР° ранжирование сюжетов, — это наша СЃ вами, посетителями Яндекса, работа СЃ РїРѕРёСЃРєРѕРј. Количество запросов РІ минуту составляет РїСЂРё обычной дневной загрузке около 2 тыс. Ртих данных вполне достаточно для того, чтобы учитывать аномалии запросов для ранжирования сюжетов РІ Новостях. (Ведь что такое аномалия РІ запросах — это наш СЃ вами интерес Рє событиям.)
3.1.2. Формирование новостного блока
РЈ Яндекс. Новостей свыше полутора тысяч информационных партнеров. Казалось Р±С‹, зачем информационным изданиям отдавать СЃРІРѕРё новости для публикации РЅР° РґСЂСѓРіРѕРј ресурсе? Рто должно было Р±С‹ понижать посещаемость РѕСЃРЅРѕРІРЅРѕРіРѕ поставщика новостей. РќР° самом деле РІСЃРµ получается наоборот.
Яндекс. Новости не занимаются републикацией новостей. На новостных страницах размещается лишь заголовок и краткая аннотация. Для того чтобы прочитать новость полностью, посетитель должен будет перейти на сайт-первоисточник. Следовательно, количество посетителей у информационного сайта не только не уменьшается, а наоборот, возрастает.
Для информационных партнеров Яндекс разработал специальную партнерскую программу, РіРґРµ каждый участник принимает РЅР° себя определенные обязательства. Рљ партнерству приглашаются РЅРµ только центральные издания, РЅРѕ Рё региональные, что позволяет Яндекс. Новостям формировать региональные новостные ленты. РќРѕ РЅРµ РІСЃРµ издания РјРѕРіСѓС‚ стать партнерами. Обязательным условием является соблюдение партнерами действующего СЂРѕСЃСЃРёР№СЃРєРѕРіРѕ законодательства. Партнеры службы — профессиональные издания, предоставляющие качественную информацию. Еще РѕРґРЅРѕ условие партнерства РІ том, что транслируемые данные должны находиться РІ СЃРІРѕР±РѕРґРЅРѕРј бесплатном доступе РІ Рнтернете (необходимость регистрации считается ограничением СЃРІРѕР±РѕРґРЅРѕРіРѕ доступа).
Не будут информационными партнерами издания, занимающиеся плагиатом, не имеющие собственных источников информации и публикующие только перепечатки уже опубликованных новостей. Не смогут стать информационными партнерами издания, относящие себя к "желтой" прессе. Повышать посещаемость за счет такого рода новостей не является целью Яндекса.
- Галактика Интернет - Мануэль Кастельс - Интернет
- Как мы покупали русский интернет - Сергей Васильев - Интернет
- Wi-Fi: Все, что Вы хотели знать, но боялись спросить - А. Щербаков - Интернет
- Отзывчивый веб-дизайн - Итан Маркотт - Интернет
- Как заработать в Интернете. 35 самых быстрых способов - Ольга Фомина - Интернет
- SEO для бизнеса - Гроховский Леонид - Интернет
- Интернет для женщин - Евгения Пастернак - Интернет
- QNX/UNIX: Анатомия параллелизма - Цилюрик Олег Иванович - Интернет
- Эра Facebook Как использовать возможности социальных сетей для развития вашего бизнеса - Автор Неизвестен - Интернет
- Деловая e-mail переписка. Пять правил успеха - Тамара Воротынцева - Интернет