На краю пропасти. Экзистенциальный риск и будущее человечества - Орд Тоби. Страница 110
406
Посещаемость одной из главных конференций, NeurIPS, в период с 2012 по 2018 год повысилась в 4,8 раза. Объем венчурных инвестиций в ИИ в период с 2013 по 2018 год вырос в 4,5 раза (Shoham et al., 2018).
407
Основано на данных из Brundage et al. (2018), Coles (1994) и Shoham et al. (2018). Иллюстрации взяты в Goodfellow et al. (2014), Radford, Metz & Chintala (2015), Liu & Tuzel (2016) и Karras et al. (2017).
408
Анкету разослали всем исследователям, которые заявили свои работы на две ведущие конференции по машинному обучению в 2015 году (NeurIPS и ICML). Данные получены из ответов 352 откликнувшихся исследователей (Grace et al., 2018).
409
Любопытно, что наблюдалось существенное и статистически значимое различие между сроками, которые называли исследователи с разных континентов. Исследователи из Северной Америки полагали, что вероятность достигнет 50 % за 74 года, а исследователи из Азии считали, что на это уйдет всего 30 лет (европейцы занимали промежуточную позицию).
Обратите также внимание, что приведенная оценка, вероятно, довольно ненадежна. Часть респондентов отвечала на вопрос, сформулированный несколько иначе (последствия для рынка труда оценивались через освоение любой профессии, а не выполнение любой задачи). Они оценили, что с вероятностью 50 % поставленное условие будет выполнено к 2138 году, а с вероятностью 10 % – уже к 2036 году. Я не знаю, как трактовать такое расхождение, но оно наталкивает на мысль, что к этим оценкам следует относиться осторожно.
410
Если брать за ориентир что либо другое, нужно полагать, что вы способны систематически прогнозировать успехи соответствующего научного сообщества лучше, чем оно само. Основанием для этого может служить чрезмерный оптимизм специалистов при оценке своих шансов достичь поставленных целей, однако не стоит забывать, что общественность ожидает появления ОИИ еще раньше (Zhang & Dafoe, 2019).
411
Эта аналогия не идеальна. Исследователи ИИ не пытаются создать новый вид и выпустить его в дикую природу, а разрабатывают новые сущности для решения проблем. Однако все большее их число применяет для этого интеллект общего назначения, в который заложены свобода выбора и способность к самостоятельным действиям. Как мы увидим, текущая парадигма ОИИ естественным образом приобретает дополнительную установку на захват контроля над миром, чтобы защитить себя и добиться своей цели.
Теоретически могло бы существовать несколько видов, каждый из которых вершил бы свою судьбу, но в таком случае их амбиции должны быть достаточно скромными, а силы – недостаточными для того, чтобы ощутимо мешать друг другу.
412
Вполне вероятно, что наши ценности в итоге сводятся к чему то простому, например к классической утилитаристской доктрине повышения суммы положительного опыта. Но даже здесь возникают две серьезных трудности. Во-первых, даже положительный опыт слишком сложен и плохо изучен, чтобы мы сегодня могли объяснить его агенту. Возможно, в будущем, когда мы поймем природу опыта, появится простая формулировка, но пока ее нет. Во-вторых, вопрос о том, считать ли классический утилитаризм лучшей моральной доктриной, остается предметом (ожесточенных) споров. Если применим его принципы и окажемся неправы – например, упустим другие ключевые характеристики жизненного блага или не сможем объяснить, как следует его оптимально распределять, – мы окажемся заперты в ловушке в гораздо менее приятном для жизни мире. Я симпатизирую классическому утилитаризму сильнее, чем большинство философов, но все равно не стал бы этим рисковать. Думаю, нам всем стоит всерьез воспринимать такую моральную неопределенность.
413
Лично я полагаю, что вообще то человеческие ценности во многом сходятся. Мы неспроста уделяем основное внимание различиям, а не тому факту, что почти все мы отдаем предпочтение более долгой, здоровой и благополучной жизни, контролю над своей судьбой, процветающей среде и так далее. Я бы предложил такую схему: обеспечить, чтобы ИИ-системы поддерживали жизненные ценности, которые не вызывают споров, но с осторожностью относились к оспариваемым и неоднозначным ценностям, а ответственность за разрешение этих споров и неоднозначности путем размышлений и дискуссий возложить на плечи людей будущего.
414
Повесть американского писателя-фантаста Джека Уильямсона (With Folded Hands, 1947). – Прим. ред.
415
Можно рассмотреть происходящее с технической точки зрения. Стюарт Рассел (2014) сравнивает это с распространенной проблемой оптимизации: “Система, которая оптимизирует функцию с числом переменных n, где функциональное требование зависит от подмножества размером k
Исследователи проблемы контроля сравнивают ситуацию с законом Гудхарта (Goodhart, 1975): “Любая наблюдаемая статистическая закономерность склонна к разрушению, как только на нее оказывается давление с целью управления”. Изначально этот закон был предложен для того, чтобы анализировать проблемы постановки целей, которые согласуются с нашими истинными желаниями. Хотя намеченные цели могут и выполняться, часто в процессе они перестают соответствовать тому, что нам действительно важно.
416
Это может произойти одним из двух способов. Системы, основанные на использовании моделей, спрогнозируют последствия отключения и увидят, что в таком случае будут серьезно ограничены все будущие траектории и, как правило, отрезаны многие из лучших вариантов. Соответственно, действиям, ведущим к отключению, будет присвоена очень низкая ценность.
Безмодельные системы тоже могут научиться избегать отключения. Orseau & Armstrong (2016) показывают, как периодическое отключение агента в процессе обучения может привести к появлению систематических ошибок в усвоенном поведении (и предлагают возможное решение проблемы).
Далее я по большей части буду исходить из того, что продвинутый ИИ основан на использовании моделей. Или хотя бы способен применять свои фоновые знания о мире, чтобы с первой попытки успешно справляться со сложными и комплексными задачами, вместо того чтобы всегда сначала делать многие тысячи неудачных попыток, нащупывая путь к успеху. Хотя на момент написания этой книги такие системы еще не созданы, это совместимо с текущей парадигмой и является условием для того, чтобы признать систему общим ИИ. Нет необходимости считать, что такая система справляется с задачами с первого раза лучше, чем человек.
417
Omohundro (2008); Bostrom (2012). В книге Ника Бустрёма Superintelligence (2014) подробно объясняется, как именно такие инструментальные цели могут привести к очень плохим исходам для человечества.
418
Алгоритмы обучения редко учитывают возможность изменения функции вознаграждения в будущем. Неясно, будут ли они оценивать будущие состояния, ориентируясь на текущую или на будущую функцию вознаграждения. Исследователи приступают к изучению этих возможностей (Everitt et al., 2016), и каждая из них сопряжена с трудностями. Применение будущей функции вознаграждения помогает справиться с проблемой противостояния агентов попыткам человека откалибровать их функцию вознаграждения, но усугубляет проблему стимуляции “центра удовольствия” – склонности агентов менять собственную функцию вознаграждения таким образом, чтобы получать вознаграждение стало проще.
419
Несколько из этих инструментальных целей можно считать примерами “сдвигов распределения” – ситуаций, когда агент в процессе работы сталкивается с совершенно неожиданными обстоятельствами, что вынуждает его совершать действия, которые никогда не демонстрировались в процессе обучения и испытания. В этом случае агент в процессе испытания может и не получить возможность стать сильнее людей, которые им управляют, а следовательно, ему не понадобится демонстрировать поведение, сопряженное с обманом и захватом контроля над ресурсами.