Искусственный интеллект. Этапы. Угрозы. Стратегии - Бостром Ник. Страница 84
Степень безопасности, которая достигается за счет такого институционального конструирования, ограничена точностью тестов, применяющихся для оценки улучшенных субагентов. Разработка тестов усложняется тем, что оцениваемые параметры могут быть проверены лишь на небольшом диапазоне когнитивных способностей, а применяться они должны к агентам в том числе за пределами этого диапазона. Можно отчасти снять эту проблему, если проводить усовершенствование последовательно, шаг за шагом, и проверку на протяжении длительного времени. Однако такие меры предосторожности повысят издержки и замедлят прогресс (а в случае конкурентной гонки это будет означать, что проект, принимающий такие меры, окажется в невыгодном положении). И даже если идти вперед небольшими шагами и проводить интенсивное тестирование, остается некоторый риск появления небольших дефектов, которые постепенно приведут к деградации всю систему целей — деградации, способной проявиться лишь на этапе достижения системой уровня сверхразума. Риск можно несколько снизить, расширив условие тестирования на множество шагов улучшений, чтобы даже те агенты, которые успешно прошли проверку на каком-то этапе и были подвергнуты последующим улучшениям, продолжали бы сравниваться с контрольной группой немодифицированных агентов с изначально правильной системой мотивации.
В идеале такое тестирование должно проходить непрерывно, а не ограничиваться первоначальным периодом оценки. У субагентов человеческого уровня имеются стратегические способности, и они могут скрывать некоторые цели в ходе контрольных проверок их поведения. Чтобы сделать возможным непрерывное тестирование, можно создать иерархию, в рамках которой одни субагенты выполняли задачу по контролю над другими субагентами с несколько более высоким уровнем способностей. На нижней иерархической ступеньке способностей (но на вершине властной иерархии) окажется самый недалекий и «заторможенный» принципал. Он будет напоминать слабоумного короля, который отдает распоряжение недееспособному двору, а тот, в свою очередь, контролирует посредственное правительство, управляющее талантливыми людьми. Еще его можно сравнить с древним «мозгом рептилий», который следит за тем, чтобы более молодой и гораздо более развитый «неокортекс» отвечал за выполнение таких функций, как питание и совокупление.
Может возникнуть вопрос, а будет ли такая перевернутая меритократия стабильной? Если окажется, что мотивация значительного количества сверхразумных агентов нарушена, и люди, отвечающие за проект в целом, попытаются «откатить» часть улучшений, окажется ли эта институциональная структура достаточно прочной для того, чтобы выдержать сопротивление, вызванное этим шагом? В контексте исторических и современных человеческих обществ ответ, скорее всего, будет отрицательным. (Нельзя сказать, что к власти приходят только самые способные люди, но и сказать, что нами в прямом смысле управляют шимпанзе, тоже нельзя.) Однако этот вопрос оказывается гораздо более сложным, когда общество представляет собой совокупность компьютерных программ31.
Представьте цифровую иерархию, в которой на каждых двух пролетариев приходится по одному хорошо обученному полицейскому агенту. А на каждых двух обычных полицейских агентов — один специальный полицейский агент. Еще есть специальный специальный полицейский агент на каждых двух просто специальных — и так далее, так что над каждым уровнем контролеров имеется уровень с как минимум в два раза меньшим количеством контролеров. Представьте также структуру этого общества, при которой контролер обладает большими полномочиями в отношении подконтрольных ему агентов. Например, может видеть и записывать все, что они говорят и делают, как если был бы скрыт от них зеркальным стеклом — из-за этого стекла подконтрольные агенты получают лишь приказы и инструкции, которые отбирал сам контролер. Еще нужно представить, что перед каждым контролером есть приборная панель с кнопками, нажимая которые он может в любой момент соответственно наказать, вознаградить, поставить на паузу, удалить или вернуть в предыдущее состояние своего подконтрольного агента. Благодаря этим возможностям власть агента-контролера выходит далеко за исторические рамки того, что встречалось даже в наиболее тоталитарных организациях.
Но даже этим инструменты контроля не исчерпываются. В распоряжении контролеров могут иметься реалистичные симуляторы виртуальной реальности, которые они могут использовать для моделирования гипотетических сценариев, чтобы провоцировать подконтрольных агентов и изучать их реакции (например, предлагать принять участие в заговоре или немного расслабиться, уверяя, что их никто не видит). Кроме того, контролеры могут «влезать в умы» подконтрольных агентов, подслушивая их внутренние монологи и напрямую манипулируя их эмоциональным состоянием.
То есть у контролера имеется огромное преимущество32. Но каждый контролер является подконтрольным агентом другого контролера более высокого уровня, который, в свою очередь, наблюдает за каждым его шагом и следит, чтобы он не ослаблял усилий в деле исполнения своих контрольных функций. Таким образом, продуманная структура может быть стабильной даже в том случае, когда интеллектуально контролеры на всех уровнях иерархии слабее тех, кого контролируют33. И всю эту структуру, включающую множество сверхразумных агентов, может контролировать небольшое количество людей с административным доступом34.
Издержки, связанные с такой структурой внутреннего контроля, могут быть значительными, но не запредельно высокими. Например, в модели, где на каждом уровне членов в два раза меньше, чем уровнем ниже, издержки на дополнительные вычисления ограничены всего лишь ста процентами от того, что требуется для «пролетарской» части системы, — или даже меньшей величиной, если более глупый босс требует меньше вычислений в расчете на субагента. За счет увеличения этого показателя можно усилить контроль, за счет понижения — уменьшить издержки. Дополнительные вычислительные издержки будут главным фактором при сценарии конкурентного рыночного мира (см. главу 11), но в контексте проекта, не имеющего сильных непосредственных конкурентов, их роль довольно умеренная. Также потребуются затраты времени разработчиков на создание и тестирование всего этого контрольного функционала. Их можно снизить, если в рамках обладающего большими ресурсами проекта распараллелить работу над контрольной структурой и самим искусственным интеллектом; но их тяжесть будет непомерной при небольших проектах и проектах, участвующих в напряженной технологической гонке.
Также заслуживает внимания еще один тип издержек в структурах такого рода — риск проявления преступной безнравственности35. Описанная нами институция выглядит как страшный северокорейский трудовой лагерь. Однако возможности ослабить этические проблемы, связанные с его работой, есть даже в том случае, когда составляющие его субагенты являются эмуляторами с моральным статусом, соответствующим человеческому. В самом крайнем случае он может быть основан на добровольном участии в нем. Причем у каждого субагента должно быть право в любой момент прекратить свое участие36. Стертые имитационные модели могут храниться в памяти с обязательством восстановить их в более подходящих условиях, когда минует опасная стадия взрывного развития интеллекта. Тем временем субагенты, решившие участвовать в системе, могут размещаться в очень комфортабельных виртуальных условиях и иметь достаточно времени для сна и отдыха. Эти меры также предполагают затраты, которые, однако, вполне по силам проекту, обладающему большими ресурсами и не имеющему прямых конкурентов. Но в высококонкурентной среде эти расходы могут быть неприемлемыми — утешит лишь уверенность, что конкуренты их тоже несут.
В нашем примере мы предположили, что субагенты являются эмуляторами, то есть имитационными моделями головного мозга человека. Может возникнуть вопрос: потребует ли метод институционального конструирования, чтобы субагенты были антропоморфными? Или он равноприменим к системам, состоящим из искусственных субагентов?