Преодолевая пределы масштабирования аналоговых вычислений

По мере того, как модели машинного обучения становятся больше и сложнее, им требуется более быстрое и энергоэффективное оборудование для выполнения вычислений. Обычные цифровые компьютеры изо всех сил стараются не отставать.

Аналоговая оптическая нейронная сеть могла бы выполнять те же задачи, что и цифровая, такие как классификация изображений или распознавание речи, но поскольку вычисления выполняются с использованием света вместо электрических сигналов , оптические нейронные сети могут работать во много раз быстрее, потребляя при этом меньше энергии.

Однако эти аналоговые устройства подвержены аппаратным ошибкам, которые могут сделать вычисления менее точными. Одной из причин этих ошибок являются микроскопические дефекты аппаратных компонентов . В оптической нейронной сети, имеющей множество связанных компонентов, могут быстро накапливаться ошибки.

Даже при использовании методов исправления ошибок из-за фундаментальных свойств устройств, составляющих оптическую нейронную сеть, некоторое количество ошибок неизбежно. Сеть, которая достаточно велика, чтобы ее можно было реализовать в реальном мире , была бы слишком неточной, чтобы быть эффективной.

Исследователи Массачусетского технологического института преодолели это препятствие и нашли способ эффективного масштабирования оптической нейронной сети. Добавляя крошечный аппаратный компонент к оптическим переключателям, формирующим архитектуру сети, они могут уменьшить даже количество неисправимых ошибок, которые в противном случае накапливались бы в устройстве.

Их работа может позволить создать сверхбыструю, энергоэффективную аналоговую нейронную сеть, которая может функционировать с той же точностью, что и цифровая. При использовании этого метода по мере того, как оптическая схема становится больше, количество ошибок в ее вычислениях фактически уменьшается.

«Это примечательно, поскольку противоречит интуитивным представлениям об аналоговых системах, где предполагается, что более крупные схемы имеют более высокие ошибки, так что ошибки устанавливают предел масштабируемости. Настоящая статья позволяет нам рассмотреть вопрос масштабируемости этих систем с однозначное «да», — говорит ведущий автор Райан Хамерли, приглашенный научный сотрудник Исследовательской лаборатории электроники Массачусетского технологического института (RLE) и лаборатории квантовой фотоники и старший научный сотрудник NTT Research.

Соавторами Хамерли являются аспирант Саумил Бандйопадхьяй и старший автор Дирк Инглунд, доцент кафедры электротехники и информатики Массачусетского технологического института (EECS), руководитель лаборатории квантовой фотоники и член RLE. Исследование опубликовано в Nature Communications .

Умножение со светом

Оптическая нейронная сеть состоит из множества связанных компонентов, которые функционируют как перепрограммируемые, настраиваемые зеркала. Эти настраиваемые зеркала называются инферометрами Маха-Цендера (MZI). Данные нейронной сети кодируются в свет, который излучается лазером в оптическую нейронную сеть.

Типичный ИМЦ содержит два зеркала и два светоделителя. Свет входит в верхнюю часть ИМЦ, где он разделяется на две части, которые интерферируют друг с другом, затем рекомбинируются вторым светоделителем, а затем отражаются снизу к следующему ИМЦ в массиве. Исследователи могут использовать интерференцию этих оптических сигналов для выполнения сложных операций линейной алгебры, известных как умножение матриц, именно так нейронные сети обрабатывают данные.

Но ошибки, которые могут возникнуть в каждом MZI, быстро накапливаются по мере того, как свет переходит от одного устройства к другому. Можно избежать некоторых ошибок, выявляя их заранее и настраивая MZI таким образом, чтобы более ранние ошибки компенсировались более поздними устройствами в массиве.

«Это очень простой алгоритм, если вы знаете, что такое ошибки. Но эти ошибки, как известно, трудно установить, потому что у вас есть доступ только к входам и выходам вашего чипа», — говорит Хамерли. «Это побудило нас посмотреть, возможно ли создать коррекцию ошибок без калибровки».

Хамерли и его сотрудники ранее продемонстрировали математическую технику , которая пошла еще дальше. Они могли успешно определить ошибки и соответствующим образом настроить ИМЦ, но даже это не устранило всю ошибку.

Из-за фундаментальной природы MZI бывают случаи, когда невозможно настроить устройство таким образом, чтобы весь свет проходил через нижний порт к следующему MZI. Если устройство теряет долю света на каждом шаге, а массив очень большой, к концу останется лишь крошечная часть мощности.

«Даже с исправлением ошибок существует фундаментальный предел того, насколько хорошим может быть чип. MZI физически не могут реализовать определенные настройки, которые им необходимо настроить», — говорит он.

Итак, коллектив разработал новый тип МЗИ. Исследователи добавили дополнительный светоделитель на конец устройства, назвав его 3-MZI, потому что у него три светоделителя вместо двух. Из-за того, что этот дополнительный светоделитель смешивает свет, MZI становится намного проще достичь настройки, необходимой для отправки всего света снаружи через его нижний порт.

Важно отметить, что дополнительный светоделитель имеет размер всего несколько микрометров и является пассивным компонентом, поэтому он не требует дополнительной проводки. Добавление дополнительных светоделителей существенно не меняет размер чипа.

Чип больше, ошибок меньше

Когда исследователи провели моделирование для проверки своей архитектуры, они обнаружили, что она может устранить большую часть неисправимых ошибок, которые снижают точность. И по мере того, как оптическая нейронная сеть становится больше, количество ошибок в устройстве фактически снижается — противоположное тому, что происходит в устройстве со стандартными ИМЦ.

По словам Хамерли, используя 3-MZI, они потенциально могут создать устройство , достаточно большое для коммерческого использования, при этом погрешность будет уменьшена в 20 раз.

Исследователи также разработали вариант конструкции MZI специально для коррелированных ошибок. Это происходит из-за производственных дефектов: если толщина чипа немного неверна, все ИМЦ могут быть смещены примерно на одинаковую величину, поэтому все ошибки примерно одинаковы. Они нашли способ изменить конфигурацию MZI, чтобы сделать его устойчивым к этим типам ошибок. Этот метод также увеличил пропускную способность оптической нейронной сети, поэтому она может работать в три раза быстрее.

Теперь, когда они продемонстрировали эти методы с помощью моделирования, Хамерли и его сотрудники планируют протестировать эти подходы на физическом оборудовании и продолжить работу над оптической нейронной сетью , которую они смогут эффективно развернуть в реальном мире.