Изучение обучения с подкреплением для управления реакциями ядерного синтеза

Студент Школы компьютерных наук Университета Карнеги-Меллона (SCS) использовал обучение с подкреплением, чтобы помочь контролировать реакции ядерного синтеза, что является важным шагом на пути к использованию огромной мощности, производимой в ядерном синтезе, в качестве источника чистой, обильной энергии.

Ян Чар, докторант кафедры машинного обучения, использовал обучение с подкреплением для управления водородной плазмой токамака в Национальном термоядерном комплексе DIII-D в Сан-Диего. Он был первым исследователем CMU, который провел эксперимент на востребованных машинах, первым, кто использовал обучение с подкреплением , чтобы повлиять на вращение плазмы токамака, и первым, кто попробовал обучение с подкреплением на крупнейшем действующем токамаке в Соединенных Штатах. . Чар сотрудничал с Принстонской лабораторией физики плазмы (PPPL) в работе.

«Обучение с подкреплением повлияло на давление плазмы и ее вращение», — сказал Чар. «И это действительно наш большой первый здесь».

Ядерный синтез происходит, когда ядра водорода сталкиваются или сливаются вместе. Этот процесс высвобождает огромное количество энергии, но его по-прежнему сложно поддерживать на уровне, необходимом для подачи электроэнергии в сеть. Ядра водорода будут сливаться только при чрезвычайно высоких температурах и давлениях, например, в центре Солнца, где ядерный синтез происходит естественным образом. Физики также добились ядерного синтеза в термоядерном оружии, но оно бесполезно в качестве источника энергии.

В другом методе ядерного синтеза используются магнитные поля для удержания плазмы водорода при необходимой температуре и давлении для синтеза ядер. Этот процесс происходит внутри токамака — массивной машины, которая использует магнитные поля, чтобы удерживать водородную плазму в форме пончика, называемого тором. Сдерживание плазмы и поддержание ее формы требуют сотен микроманипуляций с магнитными полями и взрывов дополнительных частиц водорода.

В мире работает несколько крупномасштабных токамаков, которые могут облегчить этот тип исследований, и время для проведения экспериментов на них очень важно. Национальный термоядерный комплекс DIII-D — единственный, действующий в США.

DeepMind, дочерняя компания Alphabet, материнской компании Google, занимающаяся искусственным интеллектом, была первой, кто использовал обучение с подкреплением для управления магнитным полем , содержащим реакцию синтеза. Лаборатория успешно удерживала плазму в стабильном состоянии и придавала ей различные формы. DeepMind провела свой эксперимент на токамаке переменной конфигурации (TCV) в Лозанне, Швейцария, и опубликовала свои результаты в феврале в журнале Nature.

Чар был первым, кто провел аналогичный эксперимент по обучению с подкреплением в DIII-D. Обучение с подкреплением использует данные прошлых попыток для достижения оптимального результата. Во время эксперимента Чара алгоритмы обучения с подкреплением изучали исторические данные и данные в реальном времени, чтобы варьировать и контролировать скорость вращения плазмы в поисках оптимальной стабильности.

Плазменный бублик вращается, когда в него выстреливают дополнительные частицы водорода. Изменение скорости этих частиц потенциально может стабилизировать плазму и облегчить ее сдерживание. Чар использовал два алгоритма обучения для своего эксперимента. В одном он использовал данные токамака, собранные за несколько лет, чтобы обучить его тому, как реагирует плазма. Второй алгоритм наблюдает за состоянием плазмы, а затем решает, с какой скоростью и в каком направлении вбрасывать дополнительные частицы, чтобы повлиять на ее скорость.

«Краткосрочная цель состоит в том, чтобы дать физикам инструменты для создания этого дифференциального вращения, чтобы они могли проводить эксперименты, чтобы сделать эту плазму более стабильной», — сказал Джефф Шнайдер, профессор-исследователь Института робототехники и доктор философии Чара. советник. «В долгосрочной перспективе эта работа показывает путь к использованию обучения с подкреплением для управления другими частями состояния плазмы и, в конечном итоге, для достижения температур и давлений, достаточных для создания электростанции. Это будет означать безграничную чистую энергию для всех».

В прошлом году Чар представил проект в DIII-D, который является исследовательским центром Министерства энергетики США, управляемым General Atomics, и 28 июня ему был предоставлен трехчасовой интервал для запуска его алгоритмов. в массивном комплексе DIII-D и в окружении операторов Чар загрузил свои алгоритмы.

Чар продемонстрировал, что его алгоритмы могут контролировать скорость вращения плазмы. Это был первый случай, когда обучение с подкреплением использовалось для управления вращением. Во время сеанса контроля возникли некоторые проблемы, и требуется дополнительное тестирование. Чар вернулся в DIII-D в конце августа, чтобы продолжить свою работу.

«Иан продемонстрировал потрясающую способность разбираться в вопросах управления, специфичных для термоядерных устройств, и физике плазмы , которая подчеркивает это», — сказал Эгемен Колемен, доцент кафедры механики и аэрокосмической техники Принстонского университета и один из сотрудников Чар в PPPL. «Это большое достижение — применить теорию, которую он изучил в CMU, к реальной проблеме термоядерного синтеза и провести эксперимент на национальном объекте термоядерного синтеза. Обычно эта работа требует многолетней подготовки в области физики плазмы и инженерной подготовки».