Алло, робот - Кондратов Александр Михайлович. Страница 30
РАЗГОВОР ВСЛУХ
Проблемой распознавания образов занимается ряд ученых в США, Советском Союзе, Англии, Японии, ФРГ.
Не так уж далеко то время, когда тысячи читающих устройств, соединенных с «электронным мозгом», позволят людям отдавать машинам приказы в письменной форме. Перевод в двоичную систему, на язык чисел и язык электрических импульсов, машина будет делать сама, без вмешательства человека. Программистам не нужно будет тратить драгоценное время на кодирование программ и набивку их на перфокарты.
Но ведь основное средство связи людей — это не письменность, а звуковая речь. Нельзя ли говорить с машиной по-человечески? Отдавать ей приказы не письменно, а устно? И чтобы машина могла также отвечать «по-человечески»?
Говорящие вещи... Сколько сказок посвящено им! Человек с помощью голоса повелевает волшебными предметами. И они, послушные голосу человека, выполняют все его приказы и даже отвечают ему на человеческом языке.
Современная техника позволяет сделать сказку и мечту реальностью. Впрочем, первая попытка создать «говорящие вещи» была сделана задолго до кибернетики. Это произошло в конце XVIII века в нашей стране.
Петербургская академия наук объявила конкурс на следующие темы: «I. Какое свойство и характер столь различных между собою в рассуждении выговора гласных букв а, е, и, о, у.
II. Не можно ли сделать орудия органическим трубам, известным под именем человеческого голоса, ...кои бы произносили гласные буквы а, е, и, о, у».
Премию по этому конкурсу получил врач, механик и физик X. С. Краценштейн, создавший «механическую гортань». Она напоминала органную трубу. Возникавший в ней звук был подобен звукам человеческого голоса. В конце того же XVIII века был построен и первый «говорящий» автомат. Его создал знаменитый инженер-венгр Фаркаш Кемпелен.
Но лишь с рождением кибернетики и вычислительных машин задача «разговора вслух» чело-
века и машины перестала быть созданием «чудо-игрушек». Ввод информации в машину в виде устной речи стал насущной научной и технической проблемой.
Записать в «памяти» машины объективные признаки— колебания звуковых волн, — которые характеризуют произношение слов. Имея «эталон слова», машина сможет распознавать эти слова. Таков был первоначальный путь ученых.
Вместо «читающего устройства», вместо фотоэлемента у машины имеется прибор, анализирующий звуковые волны. Они преобразуются в числа и поступают в машинную «память». (Подобно тому, как поступают в «память» данные фотоэлемента при «чтении» машиной букв печатного текста.) Диктор несколько раз говорит одно и то же слово, например «пять».
Машина, выслушав диктора, создает в своей «памяти» эталон, образец для сравнения. Потом она выслушивает других дикторов и несколько меняет эталон слова «пять».
Обучение продолжается до тех пор, пока машина не научится безошибочно распознавать его.
Точно так же можно обучить машину узнавать и другие слова-числа, увеличивая словарный запас. В принципе, конечно, его можно увеличивать неограниченно. Но... тогда мы рискуем очень долгое время ожидать, пока машина отыщет в «памяти» эталон того или иного слова. Ведь слов-то в нашем языке много сотен тысяч. А машине нужно делать слепой перебор всех этих слов, пока она не наткнется на нужное.
Нетрудно обучить машину отличить «пять» от «десяти» или «двух». Но если от названий чисел перейти к обычной речи, дело будет гораздо сложней. «Пять», «опять», «пядь», «падь», «спать», «пат», «спят» и много других слов очень похожи по звучанию. Машина легко может их спутать.
Да и очень неэкономно загружать машинную «память» сотнями и тысячами слов.
Нельзя ли придумать другой, более быстрый и надежный способ распознавания речи?
Неужели и человек понимает речь другого человека столь же неэкономно?
ФОНЕМЫ И ЗВУКИ
Быстродействующий «электронный мозг» затрачивает на распознавание слова 1—2 секунды. Если бы и мозг человека воспринимал звуковую речь по тем же принципам, что и машина, то ему, вероятно, понадобились бы недели для распознавания одного слова. По всей видимости, люди пользуются каким-то иным способом, чтобы понимать друг друга.
Поток звуков непрерывен. Звуки человеческой речи могут быть бесконечно разнообразными. Ребенок, старик, мужчина, женщина произносят их по-разному. По-разному говорит один и тот же человек. Сравните, например, вашу собственную речь, когда вы отвечаете урок, с обычной разговорной речью. А стоит запыхаться от бега — и речь станет иной.
Почему же все-таки люди понимают друг друга? Почему не влияет все бесконечное разнообразие произношений на восприятие? Например, слово «стол», или «доска», или любые другие слова всегда воспринимаются и понимаются нами, как бы их ни произносили — быстро или медленно, небрежно или торжественно, спокойно или запыхавшись?
Потому, отвечает наука о языке, что, кроме бесконечно разнообразных звуков речи, существуют еще звуки языка, или фонемы.
В младенческом возрасте люди способны издавать различные звуки. В детском лепете можно обнаружить звуки почти всех языков мира. Там есть и английское «ти эйч», которое доставило немало хлопот тем, кто учился английскому произношению. И «взрывные», гортанные звуки кавказских языков, и щелкающие звуки, которые имеются только в бушменском и готтентотском языках коренных обитателей Южной Африки.
Дети всего мира, к какой бы нации и расе они ни принадлежали, издают одни и те же звуки. «Язык лепета» у них один и тот же. А «языков взрослых», как вы уже знаете, существует не одна тысяча.
В чем же дело? Казалось бы, так естественно: из всеобщего «детского языка» развивается всеобщий «язык взрослых».
Вероятно, так и было бы, если бы язык был подобен явлениям природы, если бы он был унаследован биологически, как мы наследуем цвет волос, форму носа, цвет глаз. Но в том-то и дело, что язык не «растет», подобно дереву или животному. Язык — продукт общества, а не природы.
Под влиянием родителей и окружающих близких детский лепет превращается в человеческую речь. Русский ребенок заучивает «а», «о», «э» и другие звуки русского языка. Маленький англичанин заучивает «ти эйч», маленький бушмен — щелкающие звуки бушменской речи.
Первоначально, как мы уже говорили, в детском лепете можно найти почти все звуки речи любого языка. Но под влиянием взрослых, под влиянием коллектива остаются только нужные звуки, звуки того языка, на котором говорят окружающие. И этот язык становится родным.
Поток звуков речи непрерывен. Каждый язык как бы просеивает его сквозь «сито». Этим «ситом» являются фонемы — «атомы языка». На них строится бесконечное разнообразие слов и фраз устной речи.
От 10 до 80 фонем — таковы пределы, в которых расположено число «атомов языка». Из этих «атомов» строятся затем «молекулы» — корни слов, частицы и другие значимые единицы языка, называемые морфемами. В любом языке мира их не больше двух тысяч.
Из морфем строятся слова: их число, как мы уже говорили, превышает десятки и сотни тысяч. А число возможных предложений, которые можно построить из этих тысяч слов, практически бесконечно.
Таким образом, из нескольких десятков «атомов»-фонем строится все неисчерпаемое богатство и разнообразие человеческой речи. И, чтобы воспринимать ее, человеческому мозгу не нужно хранить в своей памяти (да он и не смог бы сделать этого!) колоссальное количество особенностей речи. Достаточно, чтобы в «воспринимающем устройстве» хранились признаки фонем, «сито», через которое проходит поток звуков.
Точно так же, «по-человечески», предполагают ученые научить машину воспринимать звуковую речь.
ГОВОРЯЩИЕ МАШИНЫ
Вместо «эталонов слов», которые хранятся в машинной «памяти», в нее будут помещены «эталоны фонем». С ними-то и будет сопоставляться поток звуков речи. И даже не целых фонем, а их составных частей.