Искусственный интеллект. Этапы. Угрозы. Стратегии - Бостром Ник. Страница 120
28. Вариант той же идеи: создать ИИ, мотивированный действовать в соответствии со своим представлением, каким мог бы быть неявно заданный стандарт. В данной ситуации конечная цель ИИ — всегда действовать в соответствии с неявно заданным стандартом, а задача определения того, каким он может быть, выполняется в рамках достижения инструментальной цели.
Глава 10. Оракулы, джинны, монархи и инструменты
1. Я сознательно остановился на антропоморфных названиях, но им не следует придавать привычный нам смысл. Это всего лишь ярлыки для обозначения внешних отличий различных интеллектуальных систем, которые можно создать.
2. При вопросе о результатах следующих выборов вряд ли было бы удобно пользоваться ответом, содержащим полный перечень всех прогнозных вариантов, касающихся как людей, так и ситуаций.
3. Привязанных к определенному набору команд и компьютеру.
4. См.: [Kuhn 1962; De Blanc 2011].
5. Применить метод консенсуса к ИИ-джиннам и ИИ-монархам было бы сложнее, поскольку для достижения одной и той же цели можно использовать различные и при этом почти одинаково эффективные последовательности базовых действий (например, направление определенных наборов электрических сигналов к исполнительным механизмам системы); разные агенты могут выбирать несколько отличные действия, и тогда консенсус окажется невозможным. В отличие от этого, у вопросов, сформулированных нужным образом, не так много вариантов подходящих ответов (например, «да» и «нет»). (О концепции фокусной, или фокальной, точки, или точки Шеллинга, см.: [Schelling 1980].)
6. В некотором отношении поведение мировой экономики в чем-то напоминает поведение джинна, только джинна какого-то вялого и тщедушного, хотя и чрезвычайно алчного. Мировая экономика, которая может возникнуть в будущем, будет напоминать джинна, обладающего коллективным сверхразумом.
Правда, есть один момент, когда современная экономика не напоминает джинна: я могу приказать ей (конечно, за оплату ее услуг) обеспечить мне пиццу с доставкой на дом, но не в моих силах дать ей команду обеспечить мир во всем мире. Причем причина не в том, что экономика не обладает достаточной властью, просто она недостаточно скоординированна. В этом смысле мировая экономика скорее похожа не на одного джинна или иного единого агента, а на партию джиннов, обслуживающую разных и конкурирующих между собой владельцев.
Вряд ли окажется перспективным путь, если мы начнем наделять каждого джинна большим могуществом — это не сделает нашу экономику более сильной и не обеспечит мир на планете. Чтобы экономика могла функционировать как сверхразумный джинн, нужно не только повышать ее производительность, то есть добиваться при минимальных затратах максимального выпуска товаров и услуг (в том числе тех, которым требуются принципиально новые технологии), но и приспосабливать ее к тому, чтобы она была заинтересована лучше решать проблемы общемировой координации.
7. Если джинн почему-то будет неспособен отказаться от выполнения команды — и перепрограммировать себя так, чтобы избавиться от этого слабого места, — он может действовать так, чтобы исключить возможность появления новых команд.
8. Для джинна или монарха, находящихся в поисках нужного варианта ответа, может оказаться полезным даже оракул, отвечающий в духе «да» и «нет». Помощь оракула удобно использовать для написания исходного кода для джинна или монарха — нужно лишь задать ему ряд вопросов, приблизительно такого плана: «В бинарной версии кода первого ИИ, который, по твоему мнению, мог бы стать джинном, n-й символ — это ноль?»
9. Можно разработать более сложного оракула (или джинна), принимающего вопросы (или команды) только от уполномоченных на это лиц. Но где гарантия, что эти люди не окажутся коррумпированными или не станут жертвами шантажа со стороны ИИ?
10. Концепция «вуаль неведения», или «вуаль невежества», принадлежит одному из самых известных политических философов XX века Джону Ролзу; согласно ей при формировании принципов справедливого распределения нужно абстрагироваться от возможных последствий для своего личного благосостояния. Другими словами, когда мы размышляем над устройством такого понятия, как общественный договор, нам следует представить, будто мы находимся под «вуалью неведения», не позволяющей нам узнать, ни каким человеком мы станем, ни какую социальную роль будем выполнять. Идея в том, чтобы мы думали построить такое общество, которое могло бы быть наиболее справедливым и желательным безотносительно наших эгоистических интересов и когнитивных искажений. В противном случае мы стали бы действовать в пользу собственной выгоды и предпочли бы такой социальный порядок, при котором имели бы незаслуженные привилегии [Rawls 1971].
11. См.: [Karnofsky 2012].
12. Возможным исключением может быть ПО, непосредственно замкнутое на достаточно мощные исполнительные механизмы, скажем, системы раннего предупреждения о ракетном нападении, напрямую соединенные с ядерными боеголовками или передающие информацию офицерам, уполномоченным на нанесение ядерного удара. Ошибки в его работе способны привести к абсолютно рискованным ситуациям. В истории человечества это происходило минимум дважды. Первый случай: 9 ноября 1979 года в результате компьютерного сбоя Объединенное командование воздушно-космической обороны Североамериканского континента получило ложный сигнал о начале полномасштабного нападения СССР на США. Немедленно началась подготовка ответного удара, но данные с радарных систем раннего предупреждения показали, что ни одной ракеты со стороны СССР запущено не было [McLean, Stewart 1979]. Второй случай: 26 сентября 1983 года ошибочно сработала «Око» — советская спутниковая система обнаружения стартов межконтинентальных баллистических ракет с континентальной части США, — сообщив о ракетном ударе со стороны Соединенных Штатов. Оперативный дежурный командного пункта подполковник Станислав Петров правильно определил, что эта тревога ложная, — практически он один предотвратил ядерную войну [Lebedev 2004]. Вряд ли она привела бы к исчезновению человечества, даже если был бы задействован весь ядерный потенциал, имевшийся у всех стран на пике холодной войны, но, безусловно, вызвала бы неисчислимые смерти и страдания и крах современной цивилизации [Gaddis 1982; Parrington 1997]. Что угрожает нам в будущем? Может быть накоплен еще больший ядерный потенциал, изобретено более мощное смертоносное оружие, наши модели ядерного Армагеддона (в частности, оценки суровости ядерной зимы) могут оказаться несостоятельными.
13. Этот подход можно отнести к категории метода точной спецификации, основанного на системе четко прописанных правил (см. главу 9).
14. Ничего не изменится и в том случае, если критерий успеха будет определять лишь меру успешности решения, а не его точное определение.
15. Апологеты ИИ-оракула заявили бы, что у его пользователя по крайней мере есть возможность заметить изъян в предлагаемом решении — что он не соответствует намерениям пользователя, хотя и отвечает формально заданному критерию успеха. Вероятность обнаружения ошибки на этом этапе зависит от множества факторов, включая то, насколько понятны для человека результаты работы оракула и насколько доброжелательно он подходит к отбору тех черт потенциального сценария, которые представляет вниманию пользователя.
Можно не полагаться на ответы оракула, а попытаться создать отдельный инструмент, который мог бы инспектировать предложения ИИ и сообщать нам, что произойдет, если мы с ними согласимся. Но чтобы обеспечить это в полной мере, потребуется еще один сверхразум, чьему мнению мы должны будем доверять, то есть проблема надежности по-прежнему не будет решена. Можно также попробовать повысить безопасность за счет использования множества оракулов, перепроверяющих друг друга, но это не защитит нас в том случае, если все оракулы совершат одну и ту же ошибку — что может произойти, например, в ситуации, когда все они пользуются одним и тем же формальным определением того, что считать удовлетворительным решением.