Алло, робот - Кондратов Александр Михайлович. Страница 25
31. Alternate — чередоваться (глагол I спряжения).
32. Altogether — вообще (наречие).
33. Among — среди (предлог-+-родительный падеж).
Конечно, в «памяти» машины эти грамматические категории также обозначаются числами: существительному соответствует число 1, глаголу — 2, и так далее.
Поиск слов в словаре машина делает с огромной скоростью. И точность ее действия весьма велика. С грамматикой дело сложней. Например, при переводе с английского машина «выдала» такую русскую фразу: «Так что хочем ли знать будущий путь Юпитера в небесах или путь электрона в электронном микроскопе». А при переводе с французского на русский: «Мы могем сделать».
Грамматика может хромать и у машины! Впрочем, машина здесь не виновата. Просто составители программы не включили нужное правило, вернее, исключение из правила. В самом деле, если фразы «я прыгаю», «я бегаю» во множественном числе будут «мы прыгаем», «мы бегаем», то почему бы «я могу» не стало во множественном числе «мы могем»? Машина так и сделала, подобно тому как иногда поступают и маленькие дети, обучающиеся языку. И дети, и электронная машина-переводчик добросовестно и последовательно соблюдают все правила языка и только потом узнают, что, кроме правил, есть еще и исключения из них.
ТЬМА-ТЬМУЩАЯ
Почти одновременно с опытом машинного перевода на БЭСМ был проделан и другой эксперимент на машине «Стрела» под руководством О. С. Кулагиной. Машина переводила с французского на русский язык. И хотя опыт Кулагиной не получил широкой известности, как опыт машинного перевода на БЭСМ, он имеет, по мнению специалистов, гораздо большее значение для дальнейших работ в области машинного перевода. Ведь первые переводы, сделанные с помощью электронной вычислительной машины, были лишь опытами. Для того чтобы поставить машинный перевод «на широкую ногу» (добиться, чтобы, вложив в машину книгу на одном языке, мы могли через некоторое время получать перевод на другом), предстоит много работы.
Первый машинный перевод, например, был сделан с помощью словаря из 250 слов. И лишь шесть грамматических правил «управляли» этими словами.
Одно и то же слово может иметь множество значений. В опытах по машинному переводу брались только те слова, которые имели одно, в крайнем случае, два значения. Но здесь возникает трудность — какие из значений выбрать? Машина переводит в полном смысле слова «автоматически», не понимая смысла текста. Какое, например, русское слово выбрать, переводя английское слово «instance», — «инстанция» или «пример»?
Для этого машина начинает «просматривать» окружение слова. Если перед «instance» стоит предлог «for», значит, нужно переводить сразу два слова: «for instance» — «для примера», «например», а не «инстанция».
Ну, а если таких грамматических и синтаксических показателей в окружении многозначного слова нет? Как быть тогда?
Приходится ориентироваться на другие признаки.
Например, английское «solution» может иметь два значения — «решение» и «раствор». Машина просматривает всю фразу, в которой встречалось это слово. Если в ней встречается слово «вопрос» или слово «проблема», то тогда она переводит «solution» русским словом «решение». Если же слов «вопрос» или «проблема» в фразе нет, то дает перевод «раствор».
Решение, конечно, грубое, но на первых порах пригодно и оно. Зато другие языковые тонкости и трудности даже приблизительно, в грубой форме преодолеть гораздо сложнее. Например, такую.
«Un joly papillon» по-французски значит «красивая бабочка». Можно сказать и несколько иначе: «Un papillon joly» — «бабочка красивая». Смысл фразы не изменится от перестановки слов. Но не всегда. Так, «un vrai conte» в переводе на русский язык — «настоящая сказка». A «un conte vrai» — «истинное происшествие», то есть с противоположным по смыслу значением. Как научить машину, переводящую с французского на русский, в одних случаях учитывать значимую перестановку слов, а в других — нет?
Еще пример. Лишь в одном случае из полутора тысяч существительное стоит после прилагательного. Казалось бы, порядок строгий и однозначный. Но только для научной речи. В обычном русском языке мы то и дело ставим прилагательное после существительного. «Друг дорогой», «тоска черная» и тому подобные обороты очень часты в нашей речи. Значит, правило «прилагательное стоит перед существительным» для перевода обычной прозы не годится.
А как быть с синонимами — словами, разными по звучанию, но одинаковыми по смыслу? Возьмем хотя бы одно простое слово «много». Тот же смысл в нашем языке имеют обороты и слова: «обильно», «видимо-невидимо», «по горло», «полон рот», «множество», «бездна», «уйма», «громада», «кипа», «целый короб», «целый лес», «прорва», «пропасть», «тьма», «тьма-тьмущая», «неисчислимое множество», «орава», «плеяда», «куча», «ряд», «сила», «масса» и т. д. и т. п. Как учесть эти слова?
Можно, конечно, все синонимы внести в «машинный словарь». Но какое из них выбрать при переводе английского слова «much»? Ведь они имеют разные оттенки смысла. Выражения «грибов в лесу — сила!» или «грибов в лесу много» в принципе значат одно и то же. Но по стилю различаются. Да к тому же и английское слово «much» имеет несколько значений.
Трудностей, как видите, действительно «тьма-тьмущая». И преодолевать их надо не на глазок, не приблизительно, а с математической точностью. Недомолвок и недочетов машина не признает. Один лишь программист, «хозяин» машины-переводчика, не может решить их. Нужна помощь языковеда.
Но языкознание не привыкло иметь дело с числами. Мел, бумага и доска — вот и вся лингвистическая техника. Слова языка, описательно объясняющие законы языка, — такова точность науки лингвистики.
Однако так было лишь до недавнего времени. Машинный перевод и другие задачи, связанные с кибернетикой, заставили языковедов обратиться к числам и формулам. Родилась математическая лингвистика — дисциплина, совмещающая две, казалось бы, далекие друг от друга науки: языкознание и математику.
СКОЛЬКО НУЖНО СЛОВ
«Наука только тогда достигает совершенства, когда ей удается пользоваться математикой», — сказал Карл Маркс в беседе с Полем Лафаргом. Числа нужны лингвистике, чтобы поставить науку о языке на уровень физики, астрономии и других точных наук. Не менее они нужны и практике. Прежде всего для машинного перевода.
В первом опыте машинного перевода словарь состоял из 250 слов. Это, конечно, мало для перевода книг. А сколько же слов не мало? Тысяча? 5 тысяч? 100 тысяч?
В любом языке мира, какой бы скудной ни была его лексика, — несколько тысяч слов. В русском, английском, японском и других языках — сотни тысяч слов. Правила словообразования позволяют создавать новые слова. Например, слово «стушеваться» ввел в обиход писатель Ф. М. Достоевский. Можно привести еще множество подобных примеров «сочиненных» слов. Впрочем, не совсем «сочиненных»: ведь корень «туш» есть в нашем языке и его-то Достоевский не придумывал. Он взял известный корень и образовал из него по правилам русского языка новое слово. Иногда бывает и так, что слово целиком «выдумывается». Например, английский писатель-сатирик Джонатан Свифт придумал слово «лилипут». Таких придуманных слов очень мало. Однако и этот путь словотворчества в принципе возможен. Поэтому мы можем смело сказать, что словарный запас языка поистине неисчерпаем.
Однако в нашей житейской практике мы пользуемся лишь незначительной частью всех слов. Даже в произведениях великих писателей, где лексика богаче, чем в обыденной речи, можно насчитать 5—10 тысяч разных слов, не более. Какой же необходимый запас слов помещать в «память» машины?
Помогает все та же статистика. С ее помощью составляются «частотные словари». По ним можно судить, какое слово употребительное, какое редкое и как редко или часто встречается оно в языке.
Методика составления этих словарей проста. Берется достаточно длинный текст (или несколько текстов). Затем подсчитывается, сколько раз встретилось в нем то или иное слово. Раньше эта процедура отнимала месяцы и годы. С помощью счетчиков-машин время, затрачиваемое на подсчеты, резко сократилось.