Инженеры помогают искусственному интеллекту более безопасно обучаться в реальном мире

Исследователи Penn State ищут более безопасный и эффективный способ использования машинного обучения в реальном мире. Используя смоделированное высотное офисное здание, они разработали и протестировали новый алгоритм обучения с подкреплением, направленный на улучшение энергопотребления и комфорта в реальных условиях.

Грег Павлак, доцент кафедры архитектурного проектирования Университета штата Пенсильвания, представил результаты написанной им в соавторстве статьи «Метод дифференцируемой кросс-энтропии с ограничениями для безопасного обучения с подкреплением на основе моделей» на Международной конференции Ассоциации вычислительной техники по системам для Конференция Energy-Efficient Built Environments (BuildSys), которая проходила 9–10 ноября в Бостоне.

«Агенты обучения с подкреплением исследуют свою среду, чтобы научиться оптимальным действиям путем проб и ошибок», — сказал Павлак. «Из-за проблем с моделированием сложностей реального мира наблюдается растущая тенденция обучать агентов обучения с подкреплением непосредственно в реальном мире, а не в симуляции».

Однако, по мнению исследователей, развертывание обучения с подкреплением в реальных условиях сопряжено со своими проблемами.

«Два критически важных требования к обучению с подкреплением в реальном мире — это эффективное обучение и соображения безопасности», — сказал соавтор статьи Сэм Моттахеди, который на момент проведения исследования был докторантом Университета Пенсильвании в области архитектурного проектирования. «Некоторым системам обучения с подкреплением требуются миллионы взаимодействий и несколько лет, чтобы изучить оптимальную политику, что нецелесообразно в реальных сценариях. Кроме того, существует вероятность того, что они примут неверные решения, которые приведут к нежелательным результатам или приведут к небезопасным результатам. »

Эта озабоченность побудила исследователей задать вопрос: как нам разработать алгоритмы, которые позволят этим типам агентов обучения с подкреплением безопасно учиться в реальном мире , не принимая очень плохих решений, которые могут привести к поломке вещей или причинению вреда людям?

Исследователи использовали существующий подход к обучению с подкреплением на основе моделей, чтобы научить свою модель принимать решения. Этот агент искусственного интеллекта — алгоритм управления — методом проб и ошибок взаимодействует с окружающей средой, которой для их проекта было здание.

«Ключевым фактором безопасности в нашем исследовании было, как минимум, не сломать ничего в здании и гарантировать, что жильцам всегда будет комфортно», — сказал Павлак. «Хотя нам не нужно беспокоиться о том, что кого-то собьет машина, что является проблемой для обучения с подкреплением в самоуправляемых автомобилях , нам действительно нужно беспокоиться об эксплуатационных ограничениях строительного оборудования».

Исследователи хотели свести к минимуму потребление энергии , не нарушая температурный комфорт, который колеблется от -3 (слишком холодно) до +3 (слишком тепло). Если алгоритм управления выполнил действие, в результате которого комфорт оказался за пределами диапазона -0,5/+0,5, он будет оштрафован. Алгоритм управления смог поддерживать -0,5/+0,5, что является приемлемым стандартом в строительной отрасли.

«Если контроллер настроен, например, на поиск наилучшего энергопотребления , он будет вознагражден за достижение этого хорошего поведения», — сказал Павлак. «В качестве альтернативы, если он делает что-то, что увеличивает потребление энергии, он будет наказан за плохое поведение. Этот метод проб и ошибок усиливает обучение путем сбора информации, чтобы контроллер мог решить, что делать дальше».

Для этого проекта исследователи смоделировали большое офисное здание в климатической зоне Чикаго. Проблема с оборудованием в реальном 30-этажном здании может включать что-либо с большим двигателем, например, чиллеры, которые используются для охлаждения здания.

«Большие моторы не любят быстро двигаться», — сказал Павлак. «Например, большой чиллер можно включать один раз в день и выключать один раз в день — всего два события — чтобы не повредить оборудование. Если действия нашего агента привели к более чем двум чиллерам за один день, будет оштрафован».

Исследователи сравнили свой подход, основанный на моделях, с другими распространенными подходами к обучению с подкреплением, включая использование алгоритма без моделей. Агент на основе модели может планировать свои действия, потому что он может предсказать вознаграждение за него. Свободный от модели агент фактически должен выполнить действие, чтобы извлечь из него уроки.

«Алгоритм без моделей, как правило, работает хорошо, но нарушает некоторые ограничения безопасности», — сказал Павлак. «Кроме того, чтобы научиться хорошему поведению, требуется гораздо больше времени, иногда годы или десятки лет».

Модель исследователей обучалась примерно в 50 раз быстрее, чем традиционный метод без моделей, выполняя за месяц то, на что при другом подходе требуются годы. И из-за того, как исследователи включили факторы безопасности, в их модели было меньше — иногда ноль — нарушений критических аспектов безопасности.

По словам Павлака, добавление ограничений безопасности превращает обучение с подкреплением в игру с поиском компромиссов. Подкрепляющий агент может максимизировать потребление энергии, что является хорошим поведением, путем полного отключения питания. Однако это отрицательно скажется на комфорте пассажиров, что является плохим поведением.

Двигаясь вперед, исследователи хотят продолжить работу над скоростью обучения и сократить общее время обучения.

«Когда контроллер начинает с нуля, он должен всему научиться, — сказал Павлак. «Но как только вы обучили этот контроллер для одного здания, вы можете опробовать его на аналогичном здании или повторно использовать его части в следующем проекте. Если вы не начнете с нуля, это потенциально может привести к более быстрому обучению».