На краю пропасти. Экзистенциальный риск и будущее человечества - Орд Тоби. Страница 38

Эти данные следует интерпретировать с осторожностью. Это не столько оценка того, когда будет создан ОИИ, сколько ответ на вопрос, что́ специалисты считают вероятным, – и согласия между экспертами нет. Тем не менее очевидно, что экспертное сообщество в целом не считает ОИИ недостижимой мечтой, а полагает, что он может появиться в ближайшее десятилетие и скорее появится, чем нет, в ближайшее столетие. Возьмем это за ориентир при оценке рисков и рассмотрим, что случится, когда будет создан ОИИ[410].

Человечество сегодня само вершит свою судьбу. Мы можем выбирать свое будущее. Разумеется, у каждого из нас свое представление об идеальном будущем и многим важнее личные дела, чем стремление к идеалу. Но если бы этого захотело достаточное число людей, мы могли бы выбрать любой из бесчисленных вариантов возможного будущего. У шимпанзе такого выбора нет. Нет его и у дроздов. И у любого другого из земных видов. Как мы узнали из первой главы, наше уникальное положение в мире объясняется уникальными особенностями нашей психики. Непревзойденный интеллект наделил нас непревзойденной силой, а следовательно, вверил нам контроль над своей судьбой.

Что случилось бы, если бы в текущем столетии исследователи создали общий искусственный интеллект, превосходящий человеческие способности почти во всех сферах? Этим актом творения мы положили бы конец эпохе, когда человек был самой разумной сущностью на Земле. Следовательно, если у нас не имеется надежного плана по контролю за ИИ, нам следует ожидать, что мы лишимся своего статуса самого могущественного вида, который сам вершит свою судьбу[411].

Само по себе это, возможно, не дает особых причин для беспокойства. Существует немало способов при хорошем раскладе удержать контроль в своих руках. Так, мы можем попытаться разработать системы, которые неукоснительно подчиняются командам человека. Или системы, которые вольны делать что угодно, но имеют задачи, полностью совпадающие с нашими, а следовательно, строят идеальное будущее не только для себя, но и для нас. К несчастью, немногочисленные исследователи, разрабатывающие подобные планы, обнаружили, что сделать это гораздо сложнее, чем казалось. Именно они и высказывают опасения громче всех.

Чтобы понять причину их беспокойства, стоит тщательнее изучить существующие технологии ИИ и разобраться, почему их сложно настраивать и контролировать. Один из основных подходов к созданию ОИИ подразумевает комбинацию глубокого обучения и обучения с подкреплением, которое появилось раньше. Этот метод предполагает наличие агентов, которые получают вознаграждение (или штраф) за выполнение разных действий в различных обстоятельствах. Например, агент, играющий в Atari, получает вознаграждение, когда набирает очки в игре, а агент, собирающий конструктор лего, может получать вознаграждение, когда детали соединяются друг с другом. Достаточно разумный и опытный агент искусно изменяет свою среду таким образом, чтобы создавать условия для получения высокого вознаграждения.

Комбинация действий и состояний, которые приносят агенту вознаграждение, называется функцией вознаграждения. Ее могут либо задавать разработчики (как в упомянутых выше случаях), либо выводить сам агент. В последнем случае агент, как правило, наблюдает за тем, как задачу выполняет специалист, и логически выводит систему вознаграждений, которая лучше всего объясняет, почему специалист действует именно так, а не иначе. Например, ИИ-агент может научиться управлять дроном, если понаблюдает за тем, как им управляет специалист, а затем выведет функцию вознаграждения, которая наказывает его, если он летает слишком близко к препятствиям, и вознаграждает, если он добирается до пункта назначения.

К сожалению, ни один из этих методов нельзя без труда масштабировать таким образом, чтобы закодировать человеческие ценности в функцию вознаграждения агента. Наши ценности слишком сложны и неочевидны, чтобы описать их вручную[412]. И мы пока даже близко не подошли к тому, чтобы вывести систему ценностей человека во всей ее сложности из наблюдений за его поведением. Даже если бы такое было нам под силу, людей в человеческой общности слишком много и их ценности различаются, меняются со временем, а также не всегда понятны даже им самим. Каждое из этих осложнений ставит глубокие и нерешенные вопросы о том, как обобщать наблюдаемое в единую картину человеческих ценностей[413].

Итак, в ближайшем будущем любая попытка откалибровать ИИ-агент в соответствии с человеческими ценностями позволит нам создать лишь несовершенную копию нашего разума. В функции вознаграждения такого агента будет недоставать важных аспектов того, что нас заботит. При определенных обстоятельствах не совсем верная калибровка агента будет практически безвредной. Но чем умнее ИИ-системы, тем больше у них возможностей менять мир и тем сильнее рассинхронизация. Философия и литература часто предлагают представить себе общества, которые выстроены с учетом важных для нас принципов, но при этом пренебрегают крайне значимыми ценностями или неправильно понимают их. Глядя на результат, мы видим, что подобные неконтролируемые утопии могут привести к катастрофе: пустоте и выхолощенности, как в романе “О дивный новый мир”, или несамостоятельности и бессилию общества из “Со сложенными руками”[414]. Если мы так и не научимся контролировать своих агентов, они будут создавать и поддерживать именно такие миры[415].

И даже это, по сути, хороший расклад. Он предполагает, что создатели системы стараются откалибровать ее с учетом человеческих ценностей. Но стоит ожидать, что найдутся разработчики, которые предпочтут создавать системы, чтобы достигать других целей, например чтобы побеждать в войнах и максимизировать прибыли, при этом мало заботясь об этических ограничениях. И такие системы, возможно, окажутся гораздо более опасными.

Естественным ответом на эти опасения может служить отключение ИИ-систем в момент, когда мы замечаем, что они ведут нас не туда. Но в конце концов даже этот проверенный временем прием может нас подвести, ведь у нас есть все основания полагать, что достаточно умная система станет сопротивляться нашим попыткам ее отключить. И руководствоваться она будет не эмоциональными реакциями вроде страха, негодования и инстинкта самосохранения, а исключительно своей непререкаемой установкой максимизировать вознаграждение: отключение – это своего рода выход из строя, который осложняет получение большого вознаграждения, а потому система настроена так, чтобы его не допускать[416]. Таким образом, для высокоинтеллектуальных систем, главная цель которых – максимизация вознаграждения, инструментальной целью станет выживание.

У них появятся и другие инструментальные цели[417]. Интеллектуальный агент будет также сопротивляться попыткам изменить его функцию вознаграждения, откалибровав ее в соответствии с человеческими ценностями, поскольку сможет спрогнозировать, что в результате это приведет к уменьшению ожидаемого вознаграждения[418]. Агент будет стремиться к получению дополнительных ресурсов – вычислительных, физических, человеческих, – которые позволят ему эффективнее менять среду, чтобы получать более крупное вознаграждение. В конце концов у него появится и стимул забрать у человечества контроль над будущим, поскольку это поможет ему в достижении всех перечисленных инструментальных целей: он получит доступ к огромным ресурсам, не допустив ни отключения, ни изменения своей функции вознаграждения. Поскольку люди предсказуемо захотят скорректировать инструментальные цели агента, это будет мотивировать его к тому, чтобы скрывать эти цели, пока не станет слишком поздно оказывать ему значимое сопротивление[419].

Скептики порой отмечают, что описанное выше возможно лишь в том случае, если будет создана ИИ-система, которая окажется достаточно умна, чтобы захватить контроль над миром, но слишком глупа, чтобы понять, что мы этого не хотим[420]. Но это неверная трактовка сценария. На самом деле при таком раскладе система прекрасно понимает, что ее цели не совпадают с нашими, и именно это подталкивает ее к обману, конфликту и захвату власти. Истинная проблема в том, что исследователи ИИ пока не знают, как создать систему, которая, заметив это несоответствие, обновляет свою систему ценностей, приближая ее к нашей, а не корректирует свои инструментальные цели, чтобы одержать над нами верх[421].