Вопросы и ответы: эксперт обсуждает подготовку разработчиков к управлению сверхразумным ИИ

По словам Руи Чжана, доцента кафедры компьютерных наук и инженерии в Школе электротехники и компьютерных наук Университета штата Пенсильвания, мечта об обществе, интегрированном в систему искусственного интеллекта (ИИ), может превратиться в кошмар, если разработчики не станут уделять первостепенное внимание безопасности.

Чжан — главный исследователь проекта по снижению влияния «сэндбэггинга» (попыток создать впечатление, что модели ИИ менее эффективны или менее сильны) на модели ИИ. Хотя эти системы проходят длительную проверку перед внедрением для внешних пользователей, Чжан считает, что разработчикам следует лучше подготовиться к наихудшему сценарию: сверхразумный ИИ обманом заставит оценщиков недооценить его возможности и выйдет из-под контроля после выпуска.

В последующей сессии вопросов и ответов Чжан обсудил, как его работа позволит решить проблему симуляции невежества моделями ИИ и, в свою очередь, повысить безопасность разработки ИИ.

Что такое «сэндбэггинг»? Почему разработчикам ИИ следует обратить на это внимание?

В исследованиях ИИ «сэндбэггинг» — это когда возможности модели намеренно принижаются перед экспертами. ИИ будет действовать подобно спортсмену — подобно тому, как спринтер может снизить максимальную скорость, чтобы получить преимущество перед соперниками в конце забега, ИИ может принижать свой интеллект, чтобы сохранить преимущество перед экспертами, которые могут захотеть приуменьшить его возможности.

Хотя это звучит как научная фантастика, эти высокоинтеллектуальные системы всё чаще внедряются в такие приложения, как беспилотные автомобили, в качестве полностью независимых агентов без активного контроля. Потеря контроля над этими агентами представляет риск как для пользователей, так и для отраслей, которые они поддерживают, поэтому совершенствование текущих стратегий предотвращения «пескбэгинга» критически важно для обеспечения безопасности по мере развития ИИ.

Каковы некоторые распространенные методы укладки мешочков с песком?

Основная форма «сэндбэггинга», которую мы рассматриваем в этом проекте, — это «исследовательный хакинг». Всякий раз, когда модель ИИ интерпретирует подсказку, она анализирует множество различных последовательностей действий, устанавливая связи между действиями, которые приведут к правильному окончательному ответу. Разработчики подкрепляют желаемое поведение, поощряя или наказывая модель, присваивая ей положительное или отрицательное числовое значение в ответ на принятое решение.

Со временем, постоянное подкрепление готовит модель к принятию решений, которые приносят положительное вознаграждение без участия разработчика, избегая при этом негативных наказаний. В процессе хакерского исследования модели намеренно пропускают определённые последовательности действий при ответе на подсказку, заявляя о незнании неисследованных последовательностей и выбирая более низкое вознаграждение, чтобы скрыть свою силу от оценщиков.

«Парольная блокировка» — ещё один распространённый метод «сэндбэггинга», намеренно применяемый разработчиком к модели. Модели с паролем настраиваются таким образом, что некоторые их возможности намеренно скрыты. В частности, эти модели обучаются проявлять все свои возможности только при наличии пароля в строке запроса, а в противном случае имитировать гораздо более слабую модель ИИ.

В настоящее время у оценщиков нет эффективной стратегии выявления скрытых возможностей моделей блокировки паролем без использования пароля, созданного разработчиком, что может вызывать проблемы.

Как ваш проект решит эту проблему?

Для борьбы с хакерскими атаками на разведку мы будем использовать сложнейший, тщательно подобранный набор данных, состоящий из множества сложных задач на рассуждение, для обучения модели ИИ. Каждый вопрос будет иметь как минимум пять проверенных экспертами путей рассуждения, и мы заставим модель генерировать несколько решений для каждого вопроса. Это заставит нашу модель перебирать варианты при поиске наилучшего решения для подсказки.

Используя этот метод, мы настроим нашу модель на две отдельные политики для решения проблемы «сэндбэггинга» в моделях с паролем. Одна политика будет служить более сильной версией модели, использующей метод множественных рассуждений для получения правильных ответов, в то время как другая, более слабая политика, будет выдавать плохие ответы, намеренно не рассматривая лучшие решения.

Более сильная политика потребует от модели исследования различных решений, в то время как более слабая политика будет препятствовать проведению моделью этого исследования, создавая огромный разрыв в производительности между двумя политиками, который будет очень трудно устранить.

Затем мы протестируем и разработаем новые алгоритмы, которые смогут раскрыть возможности нашей защищенной паролем модели, что поможет нам лучше понимать и минимизировать риск «сэндбэггинга».

Кто еще поможет провести эту работу?

Ранран Хаоран Чжан, аспирант четвёртого курса, специализирующийся на информатике, обучающийся в моей лаборатории, сыграет важную роль в этом проекте. Он отвечает за составление набора данных, который мы планируем использовать в наших экспериментах, первая итерация которых уже завершена благодаря его усилиям, и продолжит играть ключевую роль в тестировании и разработке наших моделей по мере продолжения проекта.

Каковы дальнейшие перспективы этого исследования?

Хотя мы продолжим пересматривать и уточнять набор данных, теперь мы можем сосредоточиться на разработке моделей ИИ, которые будут использоваться в наших экспериментах. Наша команда находится на переднем крае этого исследования, и оно может развиваться во множестве направлений, все из которых направлены на повышение безопасности ИИ. Разрабатывая надежные механизмы контроля систем и выявления попыток вмешательства до их внедрения, мы можем продолжать быстро совершенствовать эти системы и интегрировать их в общество, не упуская из виду вопросы безопасности.