Шрифт:
Интервал:
Закладка:
= 4 бита на букву.
Этого количества информации оказывается достаточно для того, чтобы представленную фразой № 1 абракадабру превратить в осмысленный текст.
Специалисты по телефонной, телеграфной и радиосвязи называют информацию грамматических и фонетических правил избыточной информацией. Почему? Это не так уж сложно понять.
Дело в том, что специалистов, проектирующих системы связи, письменные тексты интересуют только с одной точки зрения: как с помощью этих текстов передать по каналу связи при минимальной затрате энергии и в максимально короткий срок наибольшее количество новостей?
Мы только что выяснили, что в структуре реальных текстов содержится информация грамматических и фонетических правил.
Является ли эта информация для получателя новой? Нет, разумеется. Надо думать, что правила грамматики он усвоил еще на школьной скамье. А раз так, решили специалисты по связи, значит, информация эта избыточна и лучше по мере возможности не загружать ею канал. Приняв точку зрения специалистов по теории информации и технике связи, взглянем еще раз на фразы нашей таблицы.
Фраза № 1 и проделанный для нее расчет энтропии показывают, что наибольшая неопределенность появления буквы составляет 5 бит на букву. Расчеты, проделанные для фразы № 4 и других реальных текстов, показали, что неопределенность (непредсказуемость, неожиданность) появления каждой буквы в реальных текстах уменьшается до 1 бита за счет упорядоченности, обусловленной правилами, по которым строится всякий реальный текст.
Другими словами, неожиданность сообщений для знакомого с правилами грамматики и фонетики адресата уменьшается на 80 процентов, так как 80 процентов содержащейся в тексте информации не является для него неожиданной, новой. Так стоит ли загружать такой информацией дорогостоящий телеграфный или телефонный канал?
Специалисты решили: не стоит. И стали искать способы, позволяющие уменьшить этот «избыточный груз».
Например, получив сообщение ТЬС, можно безошибочно предугадать, что дальше последует буква Я. Почти с полной уверенностью можно предсказывать, что вслед за сочетанием КИ появится либо Й, либо М, либо X, либо Е. А если учесть еще связь между передаваемым словом и предыдущим, то можно сказать уже без всяких сомнений, какая буква последует после сочетания СКИ. Если до этого было слово ЯЩИК, а потом пришло сочетание ГРОМОЗДСКИ, то вполне очевидно, что следом появится Й. А если раньше было получено слово ВЕЩЕЙ, то после СКИ появится X и т. п.
Исходя из того, то многие буквы передаваемых текстов можно предсказывать до их получения, создатели теории информации задались вполне законным вопросом: может быть, для экономии времени и энергии эти буквы можно совсем не передавать?
Методами теории вероятностей и статистики были исследованы разнообразные сообщения: тексты, телеграфные коды, радио- и телесигналы и т. д. Оказалось, что все они обладают значительной долей избыточной информации, то есть той информации, которую можно предсказывать еще до ее получения или вообще не передавать по каналам связи, сохранив при этом возможность восстановить на приемном, конце полный текст.
Но тут мы должны отвлечься от задач техники связи и передачи сообщений, чтобы обратить внимание на одно очень важное обстоятельство: та информация, которая оказывается избыточной для техники связи, вовсе не будет излишней для самого языка.
В самом деле: лишите-ка вы текст той избыточной информации правил (Iп = 4 бита на букву), благодаря которой буквы следуют друг за другом в определенном порядке. Что тогда станет с текстом? Вполне очевидно: он тут же рассыплется, перемешает между собой все свои буквы, превратится в абракадабру, подобную фразе № 1.
То же самое произойдет и в любой другой упорядоченной (а стало быть, сохраняющей определенное количество информации) системе: стоит лишить ее этой информации, и она превратится в хаотичную смесь элементов, перестанет существовать как система.
Чтобы еще раз убедиться в том, что одна и та же информация может быть с одной точки зрения избыточной, а с другой точки зрения — крайне необходимой, допустим, что вам пришло такое сообщение: из яйца вылупился птенец, у которого есть крылья и нет плавников. Являются для вас новостью сведения о плавниках и крыльях? Нет, не являются. Для вас это избыточная информация. А для птенца?
Ситуация тут похожа на известный анекдот про сумасшедших: больной после излечения знает, что он не зерно, но знает ли об этом петух, который хочет это зерно склевать?
Так и в нашем примере: мы־то знаем, что петух из яйца должен вылупиться не с плавниками, а с крыльями. Но если лишить петуха (пока существующего в виде зародыша) этой самой избыточной информации о плавниках и крыльях, откуда петух узнает, что он должен родиться на свет не рыбой, а петухом? Не будь в яйцеклетках «избыточной» информации обо всех важных подробностях структуры зарождающихся в них организмов, на свет рождались бы только уродцы точно такие, как в сказке: «Не мышонок, не лягушка, а неведома зверюшка». Какая-нибудь несуразная, фантастическая и, уж конечно же, нежизнеспособная смесь. Значит, живым организмам «избыточная» информация необходима так же, как языку.
В продуктах питания, которые мы употребляем в пищу, помимо перевариваемых и усваиваемых организмом веществ (белков, углеводов, жиров и др.), есть вещества, которые только способствуют процессу пищеварения.
Так вот, если хотите, величина Нр = 1 бит на букву — это и есть та информация текста, которая представляет собой пищу для ума. Соответственно Iп = 4 бита на букву— это та структурная информация, которая помогает «переваривать» новый текст.
Пусть читатель извинит нас за грубость этой «пищеварительной» аналогии, которая дает весьма наглядное представление о роли, которую играют содержащиеся в каждом тексте величины Нр и Iп.
Их присутствие не обнаруживается с первого взгляда. Для выявления соотношения непредсказуемой и избыточной информации, содержащейся в текстах, понадобились годы упорного и кропотливого труда. И даже он не привел бы ни к каким результатам, если бы теория информации не предложила способов измерений информации, позволивших выразить величины Нр и Iп количеством битов.
Веками копил язык информацию, создающую в чередовании звуков и букв определенный сложный порядок. Именно избыточная информация, накапливаемая в совокупности всех грамматических и фонетических правил, собственно, и сделала язык языком. А замечательная функция отразила в себе весь процесс упорядочивания, который описывается лаконичным языком математики как процесс постепенного перехода от равенства всех вероятностей к их существенному различию, когда вероятность буквы «О» возрастает до 0,09, а вероятность буквы «Ф» падает до 0,0002.
Ну а если этот процесс продлится и дальше? Во что в конце концов превратится письменный текст?
Если много раз подряд подбрасывать игральную кость и записывать выпавшие очки, получится случайное чередование чисел: 3, 2, 5, 4, 1, 6, 2, 2, 6, 3 и т. д.
Какова вероятность того, что в следующий раз выпадет грань с пятью точками? Догадаться нетрудно. Если все грани строго симметричны, то с равной вероятностью может выпасть любая из 6 граней, то есть p1=р2 = p3 = р4 = р5 = р6=1/6 .
А какова вероятность того, что при очередном броске выпадет любая из 6 граней? Каждый легко догадается, что вероятность такого события равна единице. В самом деле, не может же игральная кость встать на ребро!
На языке теории вероятностей это условие запишется вот в каком виде:
Точно таким же образом на языке теории вероятностей можно сказать, что, закрыв глаза и передвигая кончик карандаша вдоль строки какой-нибудь книги, а затем остановив его наугад, вы обязательно попадете на букву (если считать буквой и интервал). Это условие записывается в виде:
Используя математический знак суммирования , все, что было сказано об игральной кости и буквах печатного текста, можно свести к следующей короткой записи:
, где i равно: для игральной кости 1,2,3,4,5,6; для письменных текстов А, Б, ... , Я, интервал.
Зная это условие, можно предсказать, что же в конце концов произойдет с текстом, если будет продолжаться тот процесс его упорядочивания, который можно наблюдать, просматривая сверху вниз все фразы, записанные в нашей таблице. Мы уже знаем, что бессмысленная фраза № 1 может превратиться в некоторое подобие осмысленного текста только в том случае, если разные буквы будут иметь различные вероятности. А только что записанное нами условие позволяет сделать следующий вывод: чем больше становятся вероятности одних букв, тем меньше вероятности останется на долю других (поскольку сумма всех вероятностей по-прежнему будет равна единице— согласно условию).
- Догонялки с теплотой - О. Деревенский - Физика
- Неприятности с физикой: взлет теории струн, упадок науки и что за этим следует - Ли Смолин - Физика
- Неприятности с физикой: взлет теории струн, упадок науки и что за этим следует - Ли Смолин - Физика
- Абсолютный минимум. Как квантовая теория объясняет наш мир - Майкл Файер - Физика
- Фокусы-покусы квантовой теории - О. Деревенский - Физика
- Революция в физике - Луи де Бройль - Физика
- Вселенная работает как часы. Лаплас. Небесная механика. - Карлос Касадо - Физика
- Теория Вселенной - Этэрнус - Физика
- Вселенная. Руководство по эксплуатации - Дэйв Голдберг - Физика
- Физика для всех. Движение. Теплота - Александр Китайгородский - Физика