Алгоритм обучения разрушает барьеры для глубоких физических нейронных сетей

Прочитано: 95 раз(а)


Исследователи EPFL разработали алгоритм, позволяющий обучать аналоговую нейронную сеть так же точно, как и цифровую, что позволяет разрабатывать более эффективные альтернативы энергоемкому оборудованию глубокого обучения.

Учитывая их способность обрабатывать огромные объемы данных посредством алгоритмического «обучения», а не традиционного программирования, часто кажется, что потенциал глубоких нейронных сетей, таких как Chat-GPT, безграничен. Но по мере того, как масштабы и влияние этих систем росли, росли и их размер, сложность и потребление энергии — последнее из которых достаточно важно, чтобы вызвать обеспокоенность по поводу вклада в глобальные выбросы углерода.

Хотя мы часто думаем о технологическом прогрессе как о переходе от аналогового к цифровому, исследователи сейчас ищут ответы на эту проблему в физических альтернативах цифровым глубоким нейронным сетям. Одним из таких исследователей является Ромен Флёри из Лаборатории волновой инженерии Инженерной школы EPFL.

В статье, опубликованной в журнале Science , он и его коллеги описывают алгоритм обучения физических систем , который демонстрирует улучшенную скорость, повышенную надежность и сниженное энергопотребление по сравнению с другими методами.

«Мы успешно протестировали наш алгоритм обучения на трех волновых физических системах, которые используют для переноса информации звуковые волны , световые волны и микроволны, а не электроны. Но наш универсальный подход можно использовать для обучения любой физической системы», — говорит первый автор и Исследователь LWE Али Момени.

«Более биологически правдоподобный» подход

Обучение нейронной сети означает помощь системам в обучении генерированию оптимальных значений параметров для таких задач, как распознавание изображений или речи. Традиционно он включает в себя два этапа: прямой проход, при котором данные передаются через сеть и функция ошибок рассчитывается на основе выходных данных, и обратный проход (также известный как обратное распространение ошибки, или BP), где градиент функции ошибок с рассчитывается по всем параметрам сети.

В ходе повторяющихся итераций система обновляется на основе этих двух вычислений, чтобы возвращать все более точные значения. Проблема? Помимо того, что BP очень энергозатратен, он плохо подходит для физических систем. Фактически, для обучения физических систем обычно требуется цифровой двойник для этапа BP, что неэффективно и несет в себе риск несоответствия реальности и моделирования.

Ученые предложили заменить этап BP вторым прямым проходом через физическую систему для локального обновления каждого сетевого уровня. Помимо снижения энергопотребления и устранения необходимости в цифровом двойнике, этот метод лучше отражает человеческое обучение.

«Структура нейронных сетей вдохновлена ​​мозгом, но маловероятно, что мозг учится с помощью BP», — объясняет Момени. «Идея здесь заключается в том, что если мы будем обучать каждый физический уровень локально, мы сможем использовать нашу реальную физическую систему вместо того, чтобы сначала строить ее цифровую модель. Поэтому мы разработали подход, который является более биологически правдоподобным».

Исследователи EPFL вместе с Филиппом дель Уном из CNRS IETR и Бабаком Рахмани из Microsoft Research использовали свой физический алгоритм локального обучения (PhyLL) для обучения экспериментальных акустических и микроволновых систем, а также смоделированную оптическую систему для классификации данных, таких как гласные звуки и изображения. Помимо того, что метод продемонстрировал сопоставимую точность с обучением на основе АД, он был надежным и адаптируемым — даже в системах, подверженных непредсказуемым внешним возмущениям — по сравнению с современным уровнем техники.

Аналоговое будущее?

Хотя подход LWE является первым обучением глубоких физических нейронных сетей без BP, некоторые цифровые обновления параметров все еще требуются. «Это гибридный подход к обучению, но наша цель — максимально сократить объем цифровых вычислений», — говорит Момени.

Теперь исследователи надеются реализовать свой алгоритм в небольшой оптической системе с конечной целью повышения масштабируемости сети.

«В наших экспериментах мы использовали нейронные сети, имеющие до 10 слоев, но будут ли они работать со 100 слоями с миллиардами параметров? Это следующий шаг, который потребует преодоления технических ограничений физических систем».

Алгоритм обучения разрушает барьеры для глубоких физических нейронных сетей



Новости партнеров