Игра разума. Как Клод Шеннон изобрел информационный век - Сони Джимми. Страница 41

Будучи творением рук полуграмотного пирата, код был достаточно легким для разгадывания. В более сложных шифрах задействуется самое разное количество уловок, чтобы затруднить подсчет частот: смена алфавита кода в середине сообщения, исключение двойных гласных и двойных согласных, не использование буквы е. Те коды, которые Шеннон тестировал для Рузвельта, и те, что Тьюринг разгадывал для Черчилля, были еще более изощренными. Но в конечном счете дешифровка сообщений была возможна и остается возможной, потому что каждое сообщение отталкивается от базовой реальности человеческой связи, в которой всегда присутствует избыточность. Общаться – это значит делать себя предсказуемым.

Это были те интуитивные знания, накопленные многими поколениями криптографов, которые Шеннон официально закрепил в своей работе по теории информации: криптография работает потому, что наши сообщения весьма и весьма далеки от того, чтобы быть полностью неопределенными. Следует отметить, что работа Шеннона в области криптографии была не единственной, что подготовила его прорыв в науке об информации: он начал размышлять об информации задолго до того, как стал заниматься кодами – на самом деле еще до того, как он узнал, что проведет несколько лет, работая криптографом на американское правительство. В то же время работа Шеннона в области информационной теории и работа шифровальщиком имела один источник – его интерес к неизученной статистической природе сообщений, построенный на догадке о том, что овладение этой природой может расширить наши возможности связи. Впоследствии он объяснит: «Я писал [работу по информационной теории], которая стала в некотором смысле оправданием тем усилиям и времени, потраченными мною на [криптографию], по крайней мере в моем представлении… Но была эта тесная связь. Я имею в виду, что эти вещи очень похожи… Информация в одном случае пытается скрыть это, а в другом – это передать».

С точки зрения Шеннона, свойство сообщений, которое делает дешифровку возможной – это избыточность. Историк криптографии, Дэвид Кан, объяснял это следующим образом: «Грубо говоря, избыточность означает, что в сообщении передается больше символов, чем фактически нужно, чтобы донести информацию». Информация разрешает неопределенность; избыточность – это каждая часть сообщения, которая не говорит нам ничего нового. Каждый раз, когда мы можем догадаться, что последует дальше, мы имеем дело с избыточностью. Буквы могут быть избыточными: за Q почти автоматически следует U, и эта буква сама по себе почти ничего не говорит нам. Мы легко можем отбросить ее и еще много других букв. Как сказал Шеннон: «MST PPL HV LTTL DFFCLTY N RDNG THS SNTNC».

Слова могут быть избыточными: артикль «the» – почти всегда грамматическая формальность, и его без всякого ущерба для восприятия можно убрать. Пират-криптограф из рассказа По поступил бы мудро, если бы отсек каждый артикль «the» или «;48»: это была та самая щель, которой так успешно воспользовался Легран. Избыточными могут быть и целые сообщения: во всех тех случаях, когда наши ответы известны заранее и мы можем говорить и говорить и не сказать ничего нового. В представлении Шеннона избыточные символы – это все те, без которых мы можем обойтись, каждая буква, слово или строчка, которые мы можем убрать, не исказив информации.

По мере того как аппроксимации текста становились все более похожими на английский язык, они делались все более и более избыточными. И если подобная избыточность вырастает из правил, которые сдерживают нашу свободу, то это диктуется практическими реалиями общения друг с другом. Любой человеческий язык крайне избыточен. С беспристрастной точки зрения специалиста в области теории информации, большую часть того, что мы говорим – руководствуясь ли традициями, грамматикой или привычками, – можно было бы и не говорить. Занимаясь теоретическими вопросами связи, Шеннон пришел к выводу, что, несмотря на богатство английского языка, любой английский текст можно урезать вдвое, не боясь нарушить его восприятие: «Половина того, что мы пишем на английском, обусловлена структурой языка, а половину мы выбираем сами». Позднее его оценка избыточности языка выросла до 80 процентов: лишь один из пяти знаков реально обладал информацией.

Если так, рассуждал Шеннон, то нам повезло, что эта избыточность не выше. А если бы она была выше, то не было бы никаких кроссвордов. При нулевой избыточности, в условном мире, где «RXKHRJFFJUJ» – это слово, «любая последовательность букв является возможным текстом данного языка, а любые два ряда букв образуют кроссворд». Чем выше уровень избыточности, тем меньше возможных последовательностей, а количество потенциальных пересечений сокращается: если бы английский был более избыточным, то стало бы практически невозможно составлять головоломки. С другой стороны, если бы английский был чуть менее избыточным, рассуждал Шеннон, мы бы заполняли кроссворды в трех измерениях.

Его оценки избыточности нашего языка возникали, как уклончиво писал Шеннон, из «конкретных результатов, полученных в области криптографии». Оставленный им намек – свидетельство того, что его значительный труд в области криптографии, статья «Теория связи в секретных системах», в 1948 году был все еще засекречен. Тем не менее другими источниками Шеннон мог оперировать относительно свободно. Одним из них было творчество Рэймонда Чандлера.

Однажды вечером Шеннон взял толстую книгу с детективными рассказами Чандлера «Возмездие Нун-стрит» и пролистал ее, как он часто делал в то время, выбрав произвольный отрывок. Он разложил по буквам весь отрывок, а его помощница должна была угадывать, какой будет следующая буква, пока не назовет правильную. К тому моменту, когда они добрались до «А S-M-A-L–L O-B-L-O-N-G R-E-A-D-l-N-G L-A-M-P O-N Т-Н-Е D», она смогла с абсолютной точностью угадать следующие три буквы: E-S-K.

Целью этого процесса была вовсе не тренировка предсказательных способностей его помощницы, тем самым Шеннон хотел доказать, что любой человек, читающий книгу на английском, станет таким же «провидцем», зная, каким правилам подчиняется то или иное предложение. К тому моменту, когда помощница дошла до буквы D, она уже поняла смысл. E-S-K – это формальность. И если бы правила нашего языка предоставляли нам свободу замолчать, как только смысл становился понятным, то буквы D было бы достаточно. Но избыточность на этом не заканчивалась. За фразой, начинающейся с «а small oblong reading lamp on the», почти наверняка последует одна или две буквы: D или первая названная буква Т. В языке с нулевой избыточностью шансы помощницы угадать, что последует дальше, были бы всего 1 к 26.

А потому следующая буква была бы максимально информативна. Но в нашем языке ее шансы составляли бы, скорее, 1 к 2, а буква несла бы гораздо меньше информации. В Оксфордском словаре английского языка представлено 228 132 слова. Из всего этого двадцатитомного кладезя лексикографии два слова стали наиболее вероятными после того, как Шеннон произнес по буквам короткую фразу: это слова «desk», «table». Как только Рэймонд Чандлер добрался до «the», он загнал себя в угол. Но мы все загоняем себя в угол, когда пишем, говорим или поем.

Понимая избыточность нашего языка, мы можем сознательно оперировать ею, подобно тому, как инженеры прошлых веков учились работать с паровыми двигателями.

Да, конечно, люди экспериментировали с избыточностью языка методом проб и ошибок на протяжении многих веков. Мы урезаем избыточность, когда прибегаем к стенографии, когда даем друг другу прозвища, когда придумываем особый жаргон, чтобы сжать значение фразы (вместо «левой стороны судна» короткое слово «порт»). Мы добавляем избыточности, когда говорим «буква В, как Виктор», чтобы нас услышали и поняли, вместо того чтобы кружить вокруг да около. Но именно Шеннон показал концептуальное единство, скрытое за всеми этими действиями, и не только.

У истоков зарождения информационной эпохи, когда провода и микросхемы были отброшены и когда был расчленен поток из 0 и 1, мы обнаруживаем две фундаментальные теоремы связи, предложенные Шенноном. Они представляют собой два способа, с помощью которых мы можем управлять избыточностью: уменьшая и увеличивая ее.