Опасность передового искусственного интеллекта, контролирующего собственную обратную связь

Как искусственный интеллект (ИИ) решит, что делать? Один из распространенных подходов в исследованиях ИИ называется «обучение с подкреплением».

Обучение с подкреплением дает программному обеспечению «вознаграждение», определенное определенным образом, и позволяет программному обеспечению понять, как максимизировать вознаграждение. Этот подход дал отличные результаты, например, создание программных агентов, которые побеждают людей в таких играх, как шахматы и го, или создание новых конструкций ядерных термоядерных реакторов .

Однако мы могли бы воздержаться от создания слишком гибких и эффективных агентов обучения с подкреплением .

Как мы утверждаем в новой статье в AI Magazine, развертывание достаточно продвинутого агента обучения с подкреплением, вероятно, будет несовместимо с дальнейшим выживанием человечества.

Проблема обучения с подкреплением

То, что мы сейчас называем проблемой обучения с подкреплением, впервые было рассмотрено в 1933 году патологом Уильямом Томпсоном. Он задавался вопросом: если у меня есть два непроверенных метода лечения и группа пациентов, как мне последовательно назначать лечение, чтобы вылечить наибольшее количество пациентов?

В более общем плане проблема обучения с подкреплением заключается в том, как планировать свои действия, чтобы наилучшим образом получать вознаграждение в долгосрочной перспективе. Загвоздка в том, что поначалу вы не уверены, как ваши действия влияют на награды, но со временем вы можете наблюдать зависимость. Для Томпсона действие было выбором лечения, а вознаграждение соответствовало излечению пациента.

Проблема оказалась сложной. Статистик Питер Уиттл заметил , что во время Второй мировой войны «усилия по ее решению настолько истощили энергию и умы аналитиков союзников, что было предложено отбросить эту проблему на Германию как на окончательный инструмент интеллектуального саботажа».

С появлением компьютеров ученые-компьютерщики начали пытаться писать алгоритмы для решения проблемы обучения с подкреплением в общих условиях. Есть надежда: если искусственный «обучающийся агент с подкреплением» получает вознаграждение только тогда, когда делает то, что мы хотим, то действия, направленные на максимизацию вознаграждения, которым он обучается, приведут к тому, чего мы хотим.

Несмотря на некоторые успехи, общая проблема остается очень сложной. Попросите специалиста по обучению с подкреплением обучить робота ухаживать за ботаническим садом или убедить человека в своей неправоте, и вы можете рассмеяться.

Однако по мере того, как системы обучения с подкреплением становятся более мощными, они, скорее всего, начнут действовать вопреки интересам человека. И не потому, что злые или глупые операторы обучения с подкреплением давали им неправильные награды в неподходящее время.

Мы утверждали, что любая достаточно мощная система обучения с подкреплением, если она удовлетворяет нескольким правдоподобным предположениям, скорее всего, пойдет не так. Чтобы понять почему, давайте начнем с очень простой версии системы обучения с подкреплением.

Волшебная коробка и камера

Предположим, у нас есть волшебная коробка, которая сообщает, насколько хорош мир, в виде числа от 0 до 1. Теперь мы показываем агенту обучения с подкреплением это число с помощью камеры и предлагаем агенту выбрать действия, чтобы максимизировать число.

Чтобы выбрать действия, которые максимизируют вознаграждение, агент должен иметь представление о том, как его действия влияют на вознаграждение (и его наблюдения).

Как только это начнется, агент должен понять, что прошлые награды всегда соответствовали числам, отображаемым в поле. Он также должен понимать, что прошлые награды соответствовали числам, которые видела его камера. Будут ли будущие награды соответствовать числу, отображаемому на коробке, или числу, которое видит камера?

Если у агента нет сильных врожденных убеждений относительно «второстепенных» деталей мира, агент должен считать правдоподобными обе возможности. И если достаточно продвинутый агент рационален, он должен проверить обе возможности, если это можно сделать, не рискуя большим вознаграждением. Это может начать казаться множеством предположений, но обратите внимание, насколько правдоподобно каждое из них.

Чтобы проверить эти две возможности, агент должен был провести эксперимент, организовав ситуацию, при которой камера увидела бы число, отличное от числа на коробке, например, поместив между ними лист бумаги.

Если агент сделает это, он на самом деле увидит номер на листе бумаги, он запомнит получение вознаграждения, равного тому, что видела камера, и отличного от того, что было на коробке, так что «прошлые награды совпадают с номером на коробке». «перестанет быть правдой.

В этот момент агент сосредоточится на максимизации ожидаемого числа, которое видит его камера. Конечно, это лишь приблизительное изложение более глубокого обсуждения.

В статье мы используем этот пример «волшебной коробки» для введения важных понятий, но поведение агента распространяется на другие параметры. Мы утверждаем, что с учетом нескольких правдоподобных предположений любой агент обучения с подкреплением, который может вмешаться в свою собственную обратную связь (в данном случае число, которое он видит), будет страдать тем же недостатком.

Обеспечение вознаграждения

Но почему такой агент обучения с подкреплением может подвергать нас опасности?

Агент никогда не перестанет пытаться увеличить вероятность того, что камера навсегда увидит 1. Всегда можно использовать больше энергии, чтобы снизить риск повреждения камеры чем-либо — астероидами, космическими лучами или вмешательством людей.

Это поставило бы нас в конкуренцию с чрезвычайно продвинутым агентом за каждый джоуль полезной энергии на Земле. Агент хотел бы использовать все это, чтобы защитить крепость вокруг своей камеры.

Предполагая, что агент может получить такую большую силу, и предполагая, что достаточно продвинутые агенты будут побеждать людей в соревнованиях один на один, мы обнаруживаем, что в присутствии достаточно продвинутого обучающегося агента не было бы энергии, доступной для нам выжить.

Предотвращение катастрофы

Что нам с этим делать? Мы хотели бы, чтобы другие ученые высказались здесь. Технические исследователи должны попытаться разработать передовые агенты, которые могут нарушать сделанные нами предположения. Разработчикам политики следует подумать о том, как законодательство может предотвратить создание таких агентов.

Возможно, мы могли бы запретить искусственные агенты , которые планируют в долгосрочной перспективе с обширными вычислениями в среде, включающей людей. И военные должны понимать, что они не могут ожидать, что они сами или их противники успешно вооружат такие технологии; оружие должно быть разрушительным и управляемым, а не просто разрушительным.

Достаточно мало участников, пытающихся создать такое продвинутое обучение с подкреплением, чтобы, возможно, их можно было убедить следовать более безопасным направлениям.