Рейтинговые книги
Читем онлайн Яндекс для всех - М. Абрамзон

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 64 65 66 67 68 69 70 71 72 ... 199

Корпоративный продукт Спамооборона — это серверное решение для фильтрации спама. Устойчивость Спамообороны к новым видам спама обеспечивается автоматическим обновлением базы признаков на основе данных, полученных от Яндекс. Почты. Спамооборона относительно недорогой продукт — около $1 за каждый почтовый ящик в месяц. Она работает на операционных системах FreeBSD и Linux и поддерживает такие почтовые серверы, как SendMail, CommunigatePro и QMail. А совсем недавно Яндекс пригласил компании, чьи почтовые серверы используют MTA CommuniGate Pro под управлением операционной системы Windows, принять участие в бета-тестировании Спамообороны на новой для нее платформе.

Вот три принципа, на которых строилась разработка программы.

□ С роботами должны бороться роботы — спамерские письма рассылаются роботами в миллионах экземпляров. Отсюда следует, что быстро реагировать и эффективно обрабатывать их могут только роботы. Поэтому развитие Спамообороны — это создание все более умных алгоритмов, которые могут распознавать спам. Несмотря на все разнообразие спамерских технологий, в подобных письмах есть много характерных признаков, которые могут быть выделены статистическим анализом.

□ Письма не должны проваливаться в "черную дыру" — на Яндексе письмо либо не принимается почтовым сервером (о чем сервер-отправитель получает соответствующее уведомление), либо доходит до ящика пользователя.

□ Судьбу писем решает владелец почтового ящика — почта Яндекса по умолчанию предлагает фильтр, который складывает в папку Рассылки письма, похожие на спам. Владелец ящика может полностью отключить этот фильтр (и получать все письма в папку Входящие) либо реабилитировать адреса конкретных рассылок.

Таким образом Спамооборона не является "жестким", с раз и навсегда заданными правилами, продуктом, защищающим почту от спама. Алгоритм работы этой системы настраивается на предпочтения пользователя. В то же время система является обучаемой, а в качестве "учебного материала" для нее служит постоянно обновляемая база знаний, пополняемая за счет непрерывного анализа приходящих на Яндекс. Почту сообщений. Спамооборона учится и за счет нас, пользователей. Это происходит в силу наличия обратной связи — вспомните, в интерфейсе почтового ящика есть кнопки Это спам! и Это не спам. Безусловно, для одних сообщение может считаться спамом, для других — нет, поэтому в системе для принятия общего решения ведется анализ количества сигналов и того, и другого рода.

Помимо обучения всей системы, Спамооборона умеет подстраиваться и под конкретного пользователя Яндекс. Почты — она корректирует "белые" списки по данным обратной связи и по списку корреспондентов, которым пользователь отправляет письма.

Основные элементы Спамообороны

Спамооборона состоит из нескольких частей:

□ парсера, который разбирает письмо на элементы и собирает статистику;

□ анализирующего модуля, применяющего правила и вычисляющего "спамовый вес" каждого сообщения;

□ базы знаний, на основе которой работают правила.

РСЃС…РѕРґРЅРѕР№ информацией, СЃ которой работает Спамооборона, является совокупность всех данных, относящихся Рє каждому сообщению. Это Рё данные почтовых серверов (IP-адреса, служебная информация), Рё заголовки писем, Рё тексты, включающие как "чистые", так Рё "грязные" элементы, вложения, РїРѕРґРїРёСЃРё, адреса отправителей Рё С‚.В Рї. Анализируется Рё сам текст РїРёСЃСЊРјР° — количество несловарных слов, скрытой информации. Системе пришлось обучаться Рё РЅР° письмах спамеров, которые сознательно коверкали СЂСѓСЃСЃРєРёР№ язык, надеясь таким образом пробить РѕР±РѕСЂРѕРЅСѓ Рё донести СЃРІРѕРё РїРёСЃСЊРјР° РґРѕ ящиков адресатов.

На первом этапе обработки письма в дело вступает парсер, который разделяет письмо на "чистую", воспринимаемую человеком, составляющую, и "грязную", "шумовую", составляющую, которая может содержать и невидимый для пользователя текст, и бессмысленные данные.

Одновременно с этим происходит анализ технической информации о письме — проверяется достоверность информации об отправителе, анализируется подлинность заголовков письма, учитываются особенности настройки сетей и почтовых систем отправителей. Поставщиком данных для системы правил является обновляемая база знаний, которая включает данные RBL, шинглы и наборы эвристик.

Пояснения

Шингл — это специальным образом рассчитываемая метрика письма, позволяющая выявлять массовые рассылки. Алгоритм расчета шинглов основан на определении уникальных характеристик схожих сообщений.

1 ... 64 65 66 67 68 69 70 71 72 ... 199
На этой странице вы можете бесплатно читать книгу Яндекс для всех - М. Абрамзон бесплатно.

Оставить комментарий