Эволюционное обучение с подкреплением обещает дальнейший прогресс в машинном обучении

Прочитано: 99 раз(а)


Эволюционное обучение с подкреплением — это захватывающий рубеж в машинном обучении, сочетающий сильные стороны двух разных подходов: обучения с подкреплением и эволюционных вычислений. В эволюционном обучении с подкреплением интеллектуальный агент изучает оптимальные стратегии, активно исследуя различные подходы и получая вознаграждение за успешное выполнение.

Эта инновационная парадигма сочетает в себе обучение методом проб и ошибок обучения с подкреплением со способностью эволюционных алгоритмов имитировать естественный отбор , что приводит к мощной методологии разработки искусственного интеллекта, которая обещает прорывы в различных областях.

Обзорная статья об эволюционном обучении с подкреплением была опубликована в журнале Intelligent Computing. Он проливает свет на последние достижения в интеграции эволюционных вычислений с обучением с подкреплением и представляет собой всесторонний обзор современных методов.

Обучение с подкреплением, подобласть машинного обучения , фокусируется на разработке алгоритмов, которые учатся принимать решения на основе обратной связи с окружающей средой. Замечательные примеры успешного обучения с подкреплением включают роботов AlphaGo и совсем недавно Google DeepMind, которые играют в футбол .

Тем не менее, обучение с подкреплением по-прежнему сталкивается с рядом проблем, включая компромисс между исследованием и эксплуатацией, дизайн вознаграждения, обобщение и присвоение кредитов.

Эволюционные вычисления, которые имитируют процесс естественной эволюции для решения проблем, предлагают потенциальное решение проблем обучения с подкреплением. Объединив эти два подхода, исследователи создали область эволюционного обучения с подкреплением.

Эволюционное обучение с подкреплением охватывает шесть ключевых областей исследований:

  • Оптимизация гиперпараметров. Для оптимизации гиперпараметров можно использовать методы эволюционных вычислений. То есть они могут автоматически определять наилучшие настройки для систем обучения с подкреплением. Обнаружение лучших настроек вручную может быть сложной задачей из-за множества задействованных факторов, таких как скорость обучения алгоритма и его склонность к будущим вознаграждениям. Кроме того, эффективность обучения с подкреплением в значительной степени зависит от архитектуры используемой нейронной сети, включая такие факторы, как количество и размер ее слоев.
  • Поиск политик. Поиск политик предполагает поиск наилучшего подхода к задаче путем экспериментирования с различными стратегиями с помощью нейронных сетей . Эти сети, похожие на мощные калькуляторы, приближают выполнение задач и используют достижения в области глубокого обучения. Поскольку существует множество возможностей выполнения задач, процесс поиска напоминает навигацию по огромному лабиринту. Стохастический градиентный спуск — распространенный метод обучения нейронных сетей и навигации по этому лабиринту. Эволюционные вычисления предлагают альтернативные методы «нейроэволюции», основанные на стратегиях эволюции, генетических алгоритмах и генетическом программировании. Эти методы могут определить наилучшие веса и другие свойства нейронных сетей для обучения с подкреплением.
  • Исследование: агенты обучения с подкреплением совершенствуются, взаимодействуя с окружающей средой. Слишком мало исследований может привести к неверным решениям, а слишком много исследований дорого обходится. Таким образом, существует компромисс между исследованием агента с целью обнаружения хороших моделей поведения и использованием агентом обнаруженных хороших моделей поведения. Агенты исследуют, добавляя случайности в свои действия. Эффективное исследование сталкивается с проблемами: большое количество возможных действий, редкие и отложенные награды, непредсказуемая среда и сложные сценарии с несколькими агентами. Эволюционные методы вычислений решают эти проблемы, поощряя конкуренцию, сотрудничество и распараллеливание. Они поощряют исследования через разнообразие и управляемую эволюцию.
  • Формирование вознаграждения: вознаграждения важны в обучении с подкреплением, но они часто встречаются редко и агентам трудно учиться. Формирование вознаграждения добавляет дополнительные детализированные вознаграждения, чтобы помочь агентам лучше учиться. Однако эти вознаграждения могут изменить поведение агентов нежелательным образом, и для выяснения того, какими именно должны быть эти дополнительные вознаграждения, как их сбалансировать и как распределить заслуги между несколькими агентами, обычно требуется конкретное знание стоящей перед ними задачи. Чтобы решить проблему дизайна вознаграждения, исследователи использовали эволюционные вычисления для настройки дополнительных вознаграждений и их настроек как в обучении с подкреплением с одним агентом, так и с несколькими агентами.
  • Обучение с метаподкреплением: обучение с метаподкреплением направлено на разработку общего алгоритма обучения, который адаптируется к различным задачам, используя знания из предыдущих. Этот подход решает проблему, требующую большого количества образцов для изучения каждой задачи с нуля в традиционном обучении с подкреплением. Однако количество и сложность задач, которые можно решить с помощью метаобучения с подкреплением, по-прежнему ограничены, а связанные с ним вычислительные затраты высоки. Таким образом, использование не зависящих от модели и высокопараллельных свойств эволюционных вычислений является многообещающим направлением для раскрытия полного потенциала обучения с метаподкреплением, позволяющего ему учиться, обобщать и быть более эффективным в вычислительном отношении в реальных сценариях.
  • Многоцелевое обучение с подкреплением: в некоторых реальных задачах есть несколько целей, которые противоречат друг другу. Многокритериальный эволюционный алгоритм может сбалансировать эти цели и предложить компромисс, когда ни одно решение не кажется лучшим, чем другие. Многоцелевые методы обучения с подкреплением можно разделить на два типа: те, которые объединяют несколько целей в одну, чтобы найти одно лучшее решение, и те, которые находят ряд хороших решений. И наоборот, некоторые задачи с одной целью можно с пользой разбить на несколько целей, чтобы упростить решение проблем.

Эволюционное обучение с подкреплением может решать сложные задачи обучения с подкреплением даже в сценариях с редкими или вводящими в заблуждение наградами. Однако он требует значительных вычислительных ресурсов, что делает его вычислительно затратным. Растет потребность в более эффективных методах, включая усовершенствования в кодировании, выборке, поисковых операторах, алгоритмических структурах и оценке.

Хотя эволюционное обучение с подкреплением показало многообещающие результаты в решении сложных проблем обучения с подкреплением, дальнейшие успехи все еще возможны. Повышая вычислительную эффективность и изучая новые тесты, платформы и приложения, исследователи в области эволюционного обучения с подкреплением могут сделать эволюционные методы еще более эффективными и полезными для решения сложных задач обучения с подкреплением.

Исследователи создали первую интегрированную в кремний ECRAM для практического ускорителя искусственного интеллекта.



Новости партнеров