Искусственный интеллект. Этапы. Угрозы. Стратегии - Бостром Ник. Страница 76

Внедрение новейших методов проверки намерений участников договора способно серьезно изменить природу переговоров и принести большую пользу агенту, имеющему преимущество первого хода. Если его участие необходимо для получения какой-то потенциальной выгоды от сотрудничества и агент готов занять принципиально твердую позицию, то он будет в состоянии диктовать распределение этой выгоды, заявив, например, что не согласится на сделку, которая принесет ему, скажем, меньше 99 процентов прибыли. Другие агенты в итоге окажутся перед выбором: или не получить ничего (отказавшись от несправедливого предложения), или получить оставшийся один процент (согласившись на него). Если твердость намерений первого агента, занявшего непоколебимую жесткую позицию, можно проверить и подтвердить инструментальными методами, то его партнерам по переговорам действительно не остается никакого выхода, кроме как принять один из двух оставшихся вариантов.

Чтобы не допустить подобного манипулирования, любой агент может первым занять жесткую позицию, объявив о недопустимости шантажа и готовности отклонять все несправедливые предложения. Когда кто-то займет такую позицию (и сообщит о ней), другие агенты могут решить, что не в их интересах угрожать или самим заявлять о готовности согласиться на сделку лишь в том случае, если она будет только в их интересах, поскольку будут знать, что эти угрозы окажутся беспочвенными, а несправедливые предложения — отклоненными. Но это лишь еще раз подтверждает, что преимущество остается за тем, кто сделал первый ход. Агент, занявший твердую позицию и сделавший первый ход, может выбирать, ограничиться ли ему лишь предупреждением другим о недопустимости получения несправедливых преимуществ или самому попытаться захватить львиную долю будущей добычи.

В самом выигрышном положении, видимо, окажется агент, темперамент или ценностные установки которого позволят ему не реагировать на угрозы, не поддаваться ни на какие манипуляции и не соглашаться на сделки, по которым ему не будет гарантирована справедливая прибыль. Мы знаем, что и среди людей встречаются переговорщики, умеющие проявлять железную волю и непреклонность43. Однако такая жесткость позиции может сыграть злую шутку, если выяснится, что и другие агенты-переговорщики нацелены на получение только справедливой доли и не готовы отступать. Тогда непреклонная решимость одной стороны столкнется с непоколебимостью другой стороны, в результате чего окажется, что невозможно достичь никакого соглашения (ситуация может дойти вплоть до объявления войны). Кроткий и безвольный мог бы выторговать пусть не справедливую прибыль, но хоть какой-то процент.

Пока неясно, какого рода устойчивость с точки зрения теории игр может быть приобретена в подобных переговорах в условиях постпереходной экономики. Агенты могут выбрать и более сложные стратегии, чем описанные нами. Остается лишь надеяться, что баланс будет достигнут, поскольку переговорщики все-таки выработают более или менее справедливую норму — этакую точку Шеллинга, служащую единственным ориентиром в обширном пространстве исходов; ориентиром, который благодаря общим ожиданиям станет основой для координации в ничем иным не определенной игре по объединению. Это равновесие может подпитываться какими-то нашими эволюционными установками и культурным программированием — общее стремление к справедливости, при условии, что нам удастся сохранить свои ценности и в постпереходную эпоху, определит ожидания и стратегию так, что установится привлекательное для всех устойчивое равновесие44.

Во всяком случае, можно сделать вывод, что готовность занимать непоколебимо твердую позицию способна привести к непривычным для нас вариантам завершения переговоров. Даже если постпереходная эпоха начнется как многополярная, может получиться так, что почти сразу возникнет синглтон как результат заключенного соглашения, которое разрешит все важные проблемы глобальной координации. Благодаря новым технологиям, доступным усовершенствованным формам машинного интеллекта, могут резко снизиться некоторые транзакционные издержки, в том числе, возможно, затраты на контрольные проверки и принуждение к исполнению договоренностей. Однако издержки, связанные с поиском выгодных для обеих сторон условий и достижением компромисса, могут оставаться довольно высокими. Безусловно, разные стратегии торга оказывают влияние на природу переговоров, но при этом все равно неясны причины, по которым достижение такого соглашения могло бы откладываться слишком надолго, тем более если само соглашение заключается в том, чтобы быть достигнутым. Если все-таки к соглашению не удастся прийти, будет иметь место противостояние в той или иной форме; в результате победит либо одна сторона — и вокруг выигравшей коалиции образуется синглтон; либо конфликт превратится в вечный — тогда синглтон может никогда не сформироваться. В итоге мы получим результат несравнимо худший относительно того, который можно было бы планировать, стремясь к скоординированной и направленной на сотрудничество деятельности человечества и тех цифровых сущностей, которые начнут заселять наш мир.

***

Мы увидели, что многополярность, даже если она будет стабильной, не гарантирует, что выход из ситуации окажется благоприятным. Исходная проблема отношений «принципал–агент» останется нерешенной и будет погребена под горой новых проблем, связанных с неудачей постпереходных усилий по глобальной координации, что только ухудшит общую атмосферу. Поэтому предлагаю вернуться к вопросу, каким образом можно обеспечить безопасность человечества в случае прихода в мир единственного вырвавшегося вперед сверхразума.

Глава двенадцатая

Выработка ценностей

Контроль над возможностями — в лучшем случае мера временная и вспомогательная. Если не планируется держать ИИ в заточении вечно, придется разрабатывать принципы выбора мотивации. Но как быть с ценностями? Сможем ли мы внедрить их в систему искусственного агента таким образом, чтобы он начал руководствоваться ими как своими конечными целями? Пока агент не стал разумным, у него, скорее всего, отсутствуют способности к пониманию или даже представлению, что такое система человеческих ценностей. Однако если откладывать процедуру обучения, дожидаясь, когда ИИ станет сверхразумным, то, вполне вероятно, он начнет сопротивляться такому вмешательству в свою систему мотивации и, как мы видели в седьмой главе, у него на то будут конвергентные инструментальные причины. Загрузка системы ценностей проблема не из легких, но отступать нельзя.

Проблема загрузки системы ценностей

Невозможно перечислить все ситуации, в которых может оказаться сверхразум, и для каждой из них определить действия, которые ему следует совершить. Точно так же невозможно составить список всех миров и определить полезность каждого. В любой реальности, гораздо более сложной, чем игра в крестики-нолики, есть слишком много возможных состояний (и исторических состояний[30]), чтобы можно было использовать метод полного перебора. Значит, систему мотивации нельзя задать в виде исчерпывающей таблицы поиска. Вместо этого она должна быть определена более абстрактно, в качестве какой-то формулы или правила, позволяющих агенту решить, как поступить в любой ситуации.

Один из формальных путей описания этого правила решений состоит в определении функции полезности. Функция полезности (как мы помним из первой главы) задает ценность каждого возможного исхода или в более общем случае — каждого из так называемых возможных миров. При наличии функции полезности можно определить агента, максимизирующего ожидаемую полезность. В любой момент такой агент выбирает действие, имеющее самое высокое значение полезности. (Ожидаемая полезность рассчитывается путем умножения полезности каждого возможного мира на субъективную вероятность того, что этот мир станет реальностью при условии совершения рассматриваемого действия.) В реальности возможных исходов оказывается слишком много, чтобы можно было точно рассчитать ожидаемую полезность действия. Тем не менее правило принятия решения и функция полезности вместе определяют нормативный идеал — понятие оптимальности, — который агент мог бы разработать, чтобы сделать приближение, причем по мере повышения уровня интеллекта ИИ приближение становится все точнее1. Создание машины, способной вычислить хорошее приближение ожидаемой полезности доступных ей действий, является ИИ-полной задачей2. В этой главе мы рассматриваем другую задачу — задачу, которая остается таковой даже в случае решения проблемы создания машинного интеллекта.