Искусственный интеллект. Этапы. Угрозы. Стратегии - Бостром Ник. Страница 46

Тезис об инструментальной конвергенции

Можно выделить несколько инструментальных (промежуточных) целей, конвергентных в том смысле, что их наличие увеличивает шансы реализации конечной цели агента при огромном разнообразии возможных конечных целей и ситуаций, в результате чего наличие таких инструментальных целей, скорее всего, будет характерно для многих интеллектуальных агентов.

В дальнейшем мы рассмотрим несколько категорий таких конвергентных инструментальных целей8. Вероятность, что агент признает эти инструментальные цели, возрастает (при прочих равных условиях) с ростом уровня его интеллекта. Поэтому мы сосредоточим внимание в основном на случае гипотетического сверхразумного агента, инструментальные мыслительные способности которого выше человеческих. Кроме того, чтобы лучше понять, как следует интерпретировать и использовать наш тезис об инструментальной конвергенции, мы обсудим, истинен ли он по отношению к людям. Зная инструментальные цели сверхразума, мы сможем прогнозировать некоторые моменты его поведения — даже в том случае, если не будем иметь никакого представления о его конечных целях.

Самосохранение

Если конечные цели агента рассчитаны на длительную перспективу, тогда во многих сценариях ему будет необходимо выполнить некоторые действия в будущем, чтобы увеличить вероятность достижения своих целей. Отсюда возникает инструментальная причина оказаться в завтрашнем дне — что поможет агенту реализовать его ориентированные на будущее цели.

Представляется, что большинство людей определяют собственное выживание как некую конечную ценность. Однако вопрос самосохранения не всегда имеет столь окончательное значение для искусственных действующих сил: какие-то разумные агенты могут быть разработаны без особого стремления выжить. Тем не менее многие из них, напрямую не заинтересованные в сохранении собственного существования, при достаточно широком диапазоне условий имеют косвенный стимул обеспечить себе инструментально пребывание на свете как можно дольше — ради завершения своих конечных целей.

Непрерывная последовательность целей

Если текущие цели агента имеют отношение к будущему, тогда, скорее всего, они будут достигнуты уже той сущностью агента, которую он приобретет в будущем. Отсюда возникает инструментальная причина — предотвратить в настоящем изменение своих конечных целей. (Этот аргумент применим только к конечным целям. Чтобы их достичь, разумный агент, безусловно, начнет постоянно корректировать промежуточные цели с учетом новых данных и собственного понимания ситуации.)

В каком-то смысле непрерывная последовательность конечных целей является даже более фундаментальным конвергентным инструментальным мотивом, чем выживание. Среди людей может быть верно обратное — лишь потому, что выживание представляет собой одну из основных конечных целей. Для программных агентов, которые могут легко менять «корпус обитания» и создавать собственные точные копии, самосохранение самих себя в виде определенной реализации или физического объекта не обязательно является важной инструментальной целью. Расширенные версии программных агентов, возможно, смогут даже обмениваться воспоминаниями, загружать навыки и радикально изменять свою когнитивную архитектуру и персонализированные данные. Но в своей совокупности такие агенты не создают сообщества уникальных почти вечных сущностей, а скорее действуют наподобие «функционального потока»9. Генерируемые им процессы образуют целенаправленные последовательности, которые могут быть индивидуализированы скорее на основе общих ценностей, чем по признаку физических тел, «личностных» свойств, воспоминаний и способностей. В подобных случаях целостность непрерывной последовательности целей составляет едва ли не ключевой аспект вопроса выживания.

Но даже в таких сценариях бывают ситуации, когда агент способен намеренно корректировать конечные цели, чтобы выполнить их наилучшим образом. Это случается, когда любой из перечисленных ниже факторов становится особо значимым.

Социальные сигналы. Когда окружающие способны понять цели агента и на основе полученной информации сделать соответствующие выводы о его планах, важных с инструментальной точки зрения, тогда агенту придется в собственных интересах — чтобы произвести наиболее благоприятное впечатление — пересмотреть свои цели. Например, у агента может сорваться выгодная сделка, если потенциальные партнеры не доверяют ему и считают, что он неспособен выполнить свои обязательства по ней. Поэтому, чтобы завоевать доверие остальных участников договора, агент может выбрать в качестве конечной цели исполнение взятых на себя ранее обязательств (и позволить другой стороне проверить, что он действительно установил такую цель). Агенты, способные гибко и открыто пересматривать собственные цели, могут использовать это как преимущество при заключении сделок10.

Социальные предпочтения. У окружающих могут сложиться собственные предпочтения относительно конечных целей агента. Тогда у агента появляются все основания откорректировать свои цели — либо чтобы удовлетворить общественные ожидания, либо чтобы окончательно подорвать их.

Приоритетность собственного ценностного содержания. У агента могут быть некоторые конечные цели, имеющие прямое отношение к его собственной системе ценностей. Например, он выбрал своей конечной целью стать таким агентом, который мотивирован какими-то определенными ценностями сильнее, чем остальными (скажем, состраданием, а не комфортом).

Издержки хранения. Если издержки, связанные с хранением или обработкой какого-то модуля функции полезности агента, велики по сравнению с вероятностью возникновения ситуации, когда применение этого модуля будет оправданно, тогда у агента появляется инструментальная причина упростить содержание целей и отказаться от неиспользуемого модуля11.

Иногда кажется, будто нам, людям, нравится корректировать свои конечные цели. Возможно, так бывает в случаях, когда с первого раза мы не совсем точно их сформулировали. Ничего удивительного, что мы — постоянно находясь в процессе самопознания и перемен в приемах самоподачи — хотим, чтобы развивались и наши представления о конечных целях. Однако бывают случаи, когда мы сознательно корректируем свои цели безотносительно собственных представлений о них или их объяснений. Например, люди, решившие завести ребенка, будут утверждать, что станут ценить его просто потому, что он у них есть, хотя в момент принятия решения они не особенно задумывались над ценностью ни собственного будущего ребенка, ни детей вообще.

Человек — существо сложное, поэтому не только приведенные четыре фактора, но и любое обстоятельство вдруг начинает играть ведущую роль и приводит к изменению правил игры12. Например, в вашей жизни появляется кто-то, кто становится вам очень дорог, и вы уже стремитесь к новой конечной цели — посвятить себя тому, кто рядом с вами. Или корректируете конечную цель ради ребенка: когда он рождается, у вас в корне меняется система жизненных ценностей — теперь, чтобы достойно сыграть свою родительскую роль, вам нужно обрести определенный опыт и занять соответствующее социальное положение. Бывает так, что разные цели вступают во внутренний конфликт, и тогда у человека возникает желание изменить некоторые конечные цели, чтобы избавиться от этого противоречия.

Усиление когнитивных способностей

Развивая рациональное мышление и интеллектуальный уровень, агент таким образом повышает шансы добиться своих конечных целей. Поэтому можно ожидать, что усиление когнитивных способностей станет инструментальной целью большинства разумных агентов. По похожим причинам для них станет инструментальной целью и получение разнообразной информации13. Однако с инструментальной точки зрения для достижения конечных целей агента будут полезны не все виды рационального мышления, интеллекта и знаний. Для подтверждения этой мысли позвольте воспользоваться примером так называемого голландского аукциона[17] и показать: когда функция убеждений и ценностей некоего агента нарушает законы теории вероятностей, то он становится жертвой мошенников — то есть ловкий букмекер предложит ему такой набор ставок, при котором каждая по отдельности представляется агенту выгодной, но в совокупности «гарантирует» ему полный проигрыш, а букмекеру соответственно обеспечивает выигрыш14. Однако этот факт не означает, что есть веские инструментальные причины сглаживать любые вероятностные несвязанности, касающиеся собственных убеждений. Вряд ли из-за подобных «внутренних противоречий» что-то потеряют те агенты, в чьи планы не входит сталкиваться с ушлыми букмекерами или принявшие для себя политику неучастия в азартных играх, — более того, они даже приобретут некоторую выгоду, поскольку это улучшит их образ в глазах общественности, а также убережет от ненужного умственного напряжения. В принципе, нет причин ожидать, что все агенты подряд ради собственного блага начнут стремиться к инструментально бесполезным формам когнитивного улучшения, поскольку какие-то определенные знания и какие-то представления о чем-то могут просто не иметь для них большого значения.