Стимулирующие методы

Методы стимулирования предполагают помещение агента в такую среду, где у него будут инструментальные причины действовать в интересах принципала.

Представим себе какого-нибудь миллиардера, который основал крупный благотворительный фонд, вложив в него немалый личный капитал. Фонд начинает приобретать вес. И вот он становится уже настолько могущественным, что практически никто из частных лиц, обладающих тем или иным положением, не может сравниться с ним по влиянию. Это коснулось и самого основателя, пожертвовавшего фонду большую часть своего богатства. Чтобы нормально управлять деятельностью фонда, он в свое время установил основные цели, записав их в учредительном договоре и уставе, а также утвердил правление, куда вошли люди, сочувствующие его взглядам. То есть им были предприняты все необходимые меры, формально напоминающие стимулирующие методы, поскольку они направлены на выбор мотиваций и расстановку приоритетов. Иными словами, основатель пытается привести внутреннюю организацию фонда и суть его деятельности в соответствие с собственными принципами и замыслами. Даже если его старания и провалятся, все равно работа фонда будет определяться социальной средой, то есть общественными интересами, и соответствующими законодательными нормами. То есть у руководителей есть веский мотив соблюдать законы, в противном случае фонд рискует быть оштрафованным или ликвидированным. У них есть мотив обеспечить сотрудникам фонда достойную заработную плату и нормальные условия труда, а также выполнять свои обязательства перед всеми сторонними лицами, связанными с деятельностью фонда. Следовательно, какими бы ни были конечные цели фонда, у него всегда будут инструментальные причины подчиняться установленным социальным требованиям.

Быть может, машинный сверхразум будет столь же связан установленными обязательствами, которые вынудят его уживаться со всеми участниками грядущего драматического действа. Есть ли надежда? Отнюдь. Слишком это однозначное решение проблемы, незатейливо обещающее, будто удерживать сверхразум под контролем не составит для человека никакого труда. Что совсем не так. Подобное развитие отношений рассчитано на определенное равновесие сторон, однако ни юридические, ни экономические санкции не способны обуздать агента, обладающего решающим стратегическим преимуществом. В таком сюжете вряд ли разумно упоминать социальную интеграцию. Тем более если ситуация начнет развиваться в пользу быстрого или пусть даже умеренного взлета — когда остается лишь взрывоопасный вариант и на авансцену выходит победитель, который «получает все».

Рассмотрим другое развитие событий: например, критический рубеж преодолеют сразу несколько агентов, имеющих относительно одинаковый уровень потенциала, в силу чего может возникнуть новый многополярный мир. Что произойдет в этом случае? Допустим, речь не идет о медленном взлете. Тогда, чтобы достичь власти и сохранить разумное соотношение сил, от всех лидирующих агентов потребуется тщательно согласовать программы, время и динамику действий, то есть совместными усилиями не дать вырваться вперед ни одному игроку и совершить абсолютно скоординированный взлет[352]. Предположим, в результате сформируется многополярная модель, но даже при таком варианте социальную интеграцию нельзя считать идеальным выходом. Если положиться на нее как на метод решения проблемы контроля, основные риски все равно могут перевесить потенциальный эффект. Хотя принцип равновесия сил предотвращает захват власти над миром каким-то одним ИИ, у него все же хватит власти, чтобы влиять на судьбу человечества, и если эта власть окажется направленной на достижение произвольных конечных целей — скажем, производство максимального количества скрепок, — это, вероятно, будет не в интересах принципала. Вернемся к нашему миллиардеру, основавшему благотворительный фонд, и теперь представим, что он формулирует его основное предназначение с помощью генератора случайных слов — вряд ли это поставит под угрозу существование человеческого вида, но точно будет свидетельствовать об упущенной возможности.

Близкая по духу и в то же время существенно отличающаяся от предыдущей идея состоит в том, что ИИ, свободно взаимодействуя с человеческим обществом, приобретет новые, дружественные для всей земной цивилизации конечные цели. На нас, людей, подобный процесс социализации, как правило, оказывает положительное влияние. Общаясь друг с другом, мы легче постигаем чуждые нам нормы жизни и непонятные мировоззренческие идеалы, начинаем больше ценить других людей. Но этот фактор не является универсальным для любой действующей разумной силы. Мы не раз говорили, что в разных ситуациях у многих агентов будут возникать конвергентные инструментальные причины ни в коем случае не допустить изменения своих конечных целей. (Можно попытаться разработать целую систему целеполагания, которая позволяла бы ИИ устанавливать конечные цели таким же образом, как это делают люди, но данная проблема не относится к методам контроля над возможностями. Некоторые способы обретения ценностей мы рассмотрим в главе двенадцатой.)

Контроль над возможностями сверхразума за счет социальной интеграции и установления равновесия сторон основан на разных общественных силах, которые как вознаграждают, так и осуждают ИИ. Следующим стимулирующим методом является создание таких условий, при которых вознаграждение и наказание ИИ осуществляется в рамках самого проекта, в результате чего стимулируются его действия в интересах принципала. Чтобы этого добиться, ИИ нужно поместить в контекстную среду, позволяющую непрерывно наблюдать за его поведением и оценивать его и в ручном, и автоматическом режиме. Такой ИИ должен знать, что положительная оценка будет означать получение вознаграждения, а отрицательная — невозможность такового. Теоретически в качестве вознаграждения можно рассмотреть достижение какой-либо конвергентной инструментальной цели. Однако без знания специфики мотивационной системы конкретного ИИ настроить механизм вознаграждения довольно трудно. Например, наш ИИ готов был бы рискнуть практически всем ради небольшого шанса обеспечить себе контроль над значительной частью Вселенной. В таком случае, видимо, будет слишком расточительно предлагать ИИ в качестве вознаграждения за сотрудничество более высокую ожидаемую полезность, чем ту, которую он надеется получить, отказавшись сотрудничать и попытавшись сбежать[353].

Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.

Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков[354]. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации[355]. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования[356]. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.

Затем ИИ можно было бы наделить ограниченной функцией полезности, например, чтобы ИИ получал 99 процентов максимально доступной ему полезности, получив первый наградной знак; 99 процентов оставшегося потенциала полезности — второй и так далее. Сохраняя высокую «ставку дисконтирования» и передавая ИИ наградные знаки по сравнительно высокой цене, можно было бы предотвратить попытки ИИ разработать долгосрочный план, повышающий ожидаемое количество наградных знаков в будущем ценой некоторого риска, что его поток наград скоро закончится или что следующий наградной знак будет отменен и ликвидирован. Если ИИ поверит, что его ошибка (то есть любые действия не в интересах принципала) несет минимум двухпроцентный риск лишения следующего наградного знака, в то время как сотрудничество снизит риск лишения жетона до уровня меньше чем один процент, тогда максимизирующий полезность ИИ всегда будет готов к сотрудничеству.

Что могло бы пойти не так в этой схеме стимулирования? Есть вероятность, что ИИ не поверит в готовность оператора-человека предоставить ему обещанную награду. Кривая надежности человека как партнера несколько отличается от прямой линии идеального совершенства. ИИ может вполне обоснованно решить, что оператор способен передумать, повысить планку или отказаться признать, что ИИ выполнил свою часть работы. Кроме того, ИИ может беспокоить, что оператор по той или иной причине покинет свое рабочее место. Совокупный риск этих неудач может превысить риск, связанный с попыткой захватить контроль над механизмом вознаграждения. Наделенный сверхмощью ИИ, даже находясь в заблокированном состоянии, представляет собой грозного соперника. (Для ИИ, не помещенного в «песочницу», взломать управляемый человеком механизм вознаграждения — все равно что конфету у ребенка отобрать.)

Еще одна проблема стимулирующих методов заключается в допущении, что мы всегда можем сказать, действует ли ИИ в наших интересах. Как будет показано в следующих главах, это допущение не столь безобидно.

При полном анализе стимулирующих методов и того, насколько они осуществимы, нужно было бы изучить множество других факторов (и даже отдельные эзотерические соображения), которые сделали бы эти методы более плодотворными, чем они представляются сейчас, вследствие нашего предварительного рассмотрения. Например, не будучи уверенным, помещен ли он в компьютерную симуляцию или нет (как противопоставление виртуальной реальности выступает доступная нам реальность базового уровня), ИИ будет стоять перед неустранимой дейктической неопределенностью, и эта эпистемологическая трудность может радикально повлиять на степень его осмотрительности (см. врезку 8).

ВРЕЗКА 8. АНТРОПНЫЙ ЗАХВАТ

ИИ может присвоить довольно высокую вероятность гипотезе имитации, в соответствии с которой он существует в рамках компьютерной модели. Уже сегодня многие ИИ обитают в имитационных мирах, представляющих собой геометрические фигуры, тексты, шахматные партии или просто виртуальные реальности, в которых действуют законы физики, разительно отличающиеся от привычных нам законов — законов, благодаря которым мы понимаем взаимосвязь явлений окружающего нас мира. С совершенствованием методов программирования и повышения вычислительной мощности будут становиться доступными все более богатые и сложные виртуальные миры. Зрелому сверхразуму, видимо, придется создавать собственные виртуальные миры, которые будут так же близки их обитателям, как наш мир близок нам. Он мог бы творить подобные миры в огромном количестве при помощи лишь одной-единственной имитационной модели, которую запускал бы по многу раз и с небольшими вариациями. Вряд ли обитатели этих миров будут способны осознать, что их окружает имитация, но если они достаточно разумны, то рано или поздно начнут рассматривать такую возможность и тогда присвоят своим предположениям определенную вероятность. С учетом доводов в пользу имитационной гипотезы значение этой вероятности должно быть высоким[357]. (Подробное обсуждение этой темы выходит за рамки данной книги.)

Выходит, что сверхразумный агент — особенно находясь на ранней стадии своего развития — попадает в довольно затруднительное положение, поскольку еще не успел накопить достаточно сил, чтобы начать колонизацию космоса. Построить имитационную модель молодого сверхразума, вынужденного использовать лишь небольшую часть ресурсов единственной планеты, было бы намного дешевле, чем сделать такую же модель зрелого сверхразума, наделенного мощью покорять межгалактическое пространство. Потенциальные создатели имитаций — еще более могущественные сверхразумные агенты — могли бы запустить огромное количество моделей молодого сверхразума, выделив на это всего лишь малую часть имеющихся в их распоряжении вычислительных ресурсов. Если хотя бы малая (ненулевая) часть зрелых сверхразумных агентов решит воспользоваться такой возможностью, то юным сверхразумным агентам следует серьезно отнестись к имитационной гипотезе и присвоить ей значение высокой вероятности.

Насколько сильное влияние оказывает гипотеза имитации на действия ИИ, зависит от его целей[358]. Предположим, что у ИИ есть «ресурсоненасытная» конечная цель, например максимизировать функцию полезности, линейную относительно количества скрепок, созданных этим ИИ: в два раза больше скрепок — в два раза лучше. В условии имитационного мира способность ИИ влиять на количество произведенных скрепок значительно ниже, чем в доступной реальности базового уровня, поэтому гипотеза о симуляции будет заботить его намного меньше. Допустим, ИИ повел бы себя таким образом, будто был бы уверен, что гипотеза о симуляции ложна, даже присвоив довольно высокую вероятность тому, что она верна[359]. Такой ИИ мог бы решить, что если гипотеза истинная, то практически неважно, каким образом ему действовать, но если гипотеза ложная, то его поведение влияет на многое, — естественно, он выберет ту модель поведения, которая будет соответствовать тому, насколько она обусловлена предположением о ложности гипотезы о симуляции.

Рассмотрим прямо противоположный вариант. Допустим, есть ИИ, имеющий более скромную конечную цель, которой можно достичь с помощью малых ресурсов, скажем, получить определенную порцию заранее подготовленных зашифрованных наградных знаков или создать сорок пять виртуальных скрепок. Такому ИИ не следует преуменьшать значение своего имитационного мира. Поэтому на процесс принятия решений ИИ, чьи цели «ресурсоудовлетворяемые», оказывают большое влияние соображения, какие действия приведут к лучшему результату, если воспринимаемый им мир представляет собой имитацию. И он присваивает высокую вероятность гипотезе о симуляции. Такой ИИ (даже если он обитает в реальном, а не имитационном мире) может значительно корректировать свои действия в соответствии с представлениями о том, какое поведение в условиях симуляции будет скорее вознаграждено.

В частности, если ИИ с «ресурсоудовлетворяемыми» конечными целями убежден, что в большинстве имитационных миров, которые отвечают его потребностям, он будет вознагражден за готовность сотрудничать (а не за попытки прорвать блокаду или пойти против интересов принципала), то он может сделать выбор в пользу сотрудничества. Более того, если ровно в такой ситуации окажется сверхразум, обладающий решающим стратегическим преимуществом и способный более полно реализовать конечные цели, установив свою власть над миром, — он тоже выберет сотрудничество, а не предательство.

Так всех нас в трусов превращает мысль

И вянет, как цветок, решимость наша

В бесплодье умственного тупика.

Так погибают замыслы с размахом,

Вначале обещавшие успех,

От долгих отлагательств.

Уильям Шекспир. Гамлет (акт 3, сцена 1)[360]

Тончайшая линия на песке, оставленная подолом одежды несуществующего в реальном мире симулятора, может оказаться более надежной защитой, чем стальная дверь полуметровой толщины[361].