Разработан процессор ИИ для снижения энергопотребления на основе нейросетей

Разработан процессор искусственного интеллекта для снижения энергопотребления на основе передовой теории нейронных сетей.

Исследователи Tokyo Tech разработали новый чип-ускоритель под названием Hiddenite, который может обеспечить современную точность в расчетах разреженных скрытых нейронных сетей с меньшей вычислительной нагрузкой. Используя предложенную конструкцию встроенной модели, которая представляет собой комбинацию генерации веса и расширения супермаски, чип Hiddenite резко сокращает доступ к внешней памяти для повышения вычислительной эффективности.

Глубокие нейронные сети (DNN) — это сложные элементы архитектуры машинного обучения для ИИ, которым требуется множество параметров, чтобы научиться предсказывать результаты. Однако DNN можно «обрезать», тем самым уменьшая вычислительную нагрузку и размер модели. Несколько лет назад гипотеза о лотерейных билетах покорила мир машинного обучения. Гипотеза утверждала, что случайно инициализированная DNN содержит подсети, которые после обучения достигают точности, эквивалентной исходной DNN. Чем больше сеть, тем больше «лотерейных билетов» для успешной оптимизации. Таким образом, эти лотерейные билеты позволяют «урезанным» разреженным нейронным сетям достигать точности, эквивалентной более сложным, «плотным» сетям, тем самым снижая общую вычислительную нагрузку и энергопотребление.

Одним из методов поиска таких подсетей является алгоритм скрытой нейронной сети (HNN), который использует логику И (где результат высокий только тогда, когда все входы высокие) для инициализированных случайных весов и «двоичной маски», называемой «супермаской». Супермаска, определяемая наивысшими баллами top-k%, обозначает невыбранные и выбранные соединения как 0 и 1 соответственно. HNN помогает снизить эффективность вычислений со стороны программного обеспечения. Однако вычисление нейронных сетей также требует усовершенствования аппаратных компонентов.

Традиционные ускорители DNN обеспечивают высокую производительность, но не учитывают энергопотребление, вызванное доступом к внешней памяти. Теперь исследователи из Токийского технологического института (Tokyo Tech) под руководством профессоров Джехуна Ю и Масато Мотомура разработали новый чип-ускоритель под названием «Hiddenite», который может вычислять скрытые нейронные сети со значительно улучшенным энергопотреблением.

«Сокращение доступа к внешней памяти является ключом к снижению энергопотребления. В настоящее время для достижения высокой точности логических выводов требуются большие модели. Но это увеличивает доступ к внешней памяти для загрузки параметров модели. Наша главная цель при разработке Hiddenite заключалась в том, чтобы уменьшить этот доступ к внешней памяти. », — объясняет профессор Мотомура. Их исследование будет представлено на предстоящей Международной конференции по твердотельным схемам (ISSCC) 2022 , престижной международной конференции, демонстрирующей вершины достижений в области интегральных схем.

«Hiddenite» означает тензорный механизм вывода скрытой нейронной сети и является первым чипом вывода HNN. Архитектура Hiddenite предлагает тройное преимущество: сокращение доступа к внешней памяти и достижение высокой энергоэффективности. Во-первых, он предлагает встроенную генерацию весов для повторной генерации весов с помощью генератора случайных чисел. Это устраняет необходимость доступа к внешней памяти и сохранения весов. Вторым преимуществом является обеспечение «расширения супермаски на кристалле», которое уменьшает количество супермаскей, которые должны быть загружены ускорителем. Третье улучшение, предлагаемое чипом Hiddenite, — это четырехмерный (4D) параллельный процессор высокой плотности, который максимально увеличивает повторное использование данных во время вычислительного процесса, тем самым повышая эффективность.

«Первые два фактора — это то, что отличает чип Hiddenite от существующих ускорителей логического вывода DNN, — говорит профессор Мотомура. «Кроме того, мы также представили новый метод обучения для скрытых нейронных сетей, называемый «дистилляция оценок», в котором веса дистилляции традиционных знаний преобразуются в баллы, потому что скрытые нейронные сети никогда не обновляют веса. Точность с использованием перегонки баллов сравнима с бинарной моделью, но вдвое меньше бинарной модели».

Основываясь на архитектуре Hiddenite, команда разработала, изготовила и измерила прототип чипа с использованием 40-нанометрового техпроцесса Тайваньской полупроводниковой производственной компании (TSMC). Чип имеет размеры всего 3 мм x 3 мм и одновременно выполняет 4096 операций MAC (умножения и накопления). Он достигает современного уровня вычислительной эффективности, до 34,8 триллионов или тера операций в секунду (TOPS) на ватт мощности, при этом объем передаваемых моделей сокращается вдвое по сравнению с бинарными сетями.

Эти результаты и их успешная демонстрация в реальном кремниевом чипе, несомненно, вызовут еще один сдвиг парадигмы в мире машинного обучения, проложив путь к более быстрым, эффективным и, в конечном счете, более экологичным вычислениям.