Создан чип, который может классифицировать почти 2 миллиарда изображений в секунду

Искусственный интеллект (ИИ) играет важную роль во многих системах, от прогнозирования текста до медицинских диагнозов. Вдохновленные человеческим мозгом, многие системы искусственного интеллекта реализованы на основе искусственных нейронных сетей, где электрические эквиваленты биологических нейронов связаны между собой, обучаются на наборе известных данных, таких как изображения, а затем используются для распознавания или классификации новых точек данных.

В традиционных нейронных сетях, используемых для распознавания изображений , изображение целевого объекта сначала формируется на датчике изображения , таком как цифровая камера в смартфоне. Затем датчик изображения преобразует свет в электрические сигналы и, в конечном счете, в двоичные данные , которые затем можно обрабатывать, анализировать, хранить и классифицировать с помощью компьютерных микросхем. Ускорение этих возможностей является ключом к улучшению любого количества приложений, таких как распознавание лиц, автоматическое обнаружение текста на фотографиях или помощь беспилотным автомобилям в распознавании препятствий.

В то время как современная технология классификации изображений потребительского уровня на цифровом чипе может выполнять миллиарды вычислений в секунду, что делает ее достаточно быстрой для большинства приложений, более сложная классификация изображений, такая как идентификация движущихся объектов, идентификация трехмерных объектов или классификация микроскопических клеток в тела, расширяют вычислительные возможности даже самой мощной технологии. Текущее ограничение скорости этих технологий задается тактовым расписанием шагов вычислений в процессоре компьютера, где вычисления происходят одно за другим по линейному расписанию.

Чтобы устранить это ограничение, Penn Engineers создали первый масштабируемый чип, который классифицирует и распознает изображения почти мгновенно. Фируз Афлатуни, доцент кафедры электротехники и системотехники, вместе с постдокторантом Фаршидом Аштиани и аспирантом Александром Дж. Гирсом устранили четыре основных фактора, отнимающих много времени в традиционном компьютерном чипе: преобразование оптических сигналов в электрические, необходимость для преобразования входных данных в двоичный формат, большой модуль памяти и вычисления на основе часов.

Они добились этого за счет прямой обработки света, полученного от интересующего объекта, с помощью оптической глубокой нейронной сети, реализованной на чипе площадью 9,3 квадратных миллиметра.

Исследование, опубликованное в журнале Nature , описывает, как многочисленные оптические нейроны чипа соединяются между собой с помощью оптических проводов или «волноводов», образуя глубокую сеть из множества «нейронных слоев», имитирующую человеческий мозг . Информация проходит через слои сети, и каждый шаг помогает классифицировать входное изображение в одну из изученных категорий. В исследовании исследователей изображения, классифицированные чипом, представляли собой нарисованные от руки символы, похожие на буквы.

Подобно нейронной сети в нашем мозгу, эта глубокая сеть спроектирована таким образом, чтобы обеспечить быструю обработку информации. Исследователи продемонстрировали, что их чип может выполнить полную классификацию изображений за половину наносекунды — время, которое требуется традиционным цифровым компьютерным чипам для выполнения всего одного вычислительного шага в их расписании, основанном на часах.

«Наш чип обрабатывает информацию с помощью так называемого «вычисления путем распространения». Это означает, что, в отличие от систем, основанных на часах, вычисления происходят по мере прохождения света через чип», — говорит Афлатуни. «Мы также пропускаем этап преобразования оптических сигналов в электрические, потому что наш чип может напрямую считывать и обрабатывать оптические сигналы, и оба эти изменения делают наш чип значительно более быстрой технологией».

Способность чипа напрямую обрабатывать оптические сигналы дает еще одно преимущество.

«Когда современные компьютерные чипы обрабатывают электрические сигналы, они часто пропускают их через графический процессор или графический процессор, который требует места и энергии», — говорит Аштиани. «Нашему чипу не нужно хранить информацию, что устраняет необходимость в большом блоке памяти».

«Кроме того, устраняя блок памяти, в котором хранятся изображения, мы также повышаем конфиденциальность данных», — говорит Афлатуни. «С чипами, которые считывают данные изображения напрямую, нет необходимости в хранении фотографий, и поэтому утечка данных не происходит».

Чип, который считывает информацию со скоростью света и обеспечивает более высокий уровень кибербезопасности, несомненно, окажет влияние во многих областях; это одна из причин, по которой исследования этой технологии активизировались за последние несколько лет.

«Мы не первые, кто разработал технологию прямого считывания оптических сигналов, — говорит Джирс, — но мы первые, кто создал полноценную систему на чипе, совместимую с существующей технологией и масштабируемую для работы с более сложными устройствами». данные.»

Чип с его глубоким сетевым дизайном требует обучения для изучения и классификации новых наборов данных, подобно тому, как учатся люди. При представлении заданного набора данных глубокая сеть принимает информацию и классифицирует ее по ранее изученным категориям. Это обучение должно обеспечивать баланс, достаточно конкретный, чтобы привести к точной классификации изображений, и достаточно общий, чтобы быть полезным при представлении новых наборов данных. Инженеры могут «расширить» глубокую сеть, добавив больше нейронных слоев, что позволит чипу считывать данные в более сложных изображениях с более высоким разрешением.

И хотя этот новый чип усовершенствует текущую технологию распознавания изображений, его можно использовать для бесчисленных приложений с различными типами данных.

«Что действительно интересно в этой технологии, так это то, что она может делать гораздо больше, чем просто классифицировать изображения», — говорит Афлатуни. «Мы уже знаем, как преобразовать многие типы данных в электрическую область — изображения, аудио, речь и многие другие типы данных. Теперь мы можем преобразовывать различные типы данных в оптическую область и обрабатывать их почти мгновенно с помощью этой технологии».

Но как это выглядит, когда информация обрабатывается со скоростью света?

«Чтобы понять, насколько быстро этот чип может обрабатывать информацию, представьте типичную частоту кадров для фильмов», — продолжает он. «Кино обычно воспроизводится со скоростью от 24 до 120 кадров в секунду. Этот чип сможет обрабатывать почти 2 миллиарда кадров в секунду! Для задач, требующих вычислений со скоростью света, теперь у нас есть решение, но многие приложения могут быть непостижимы. прямо сейчас.»

С технологией, которая имеет множество применений, важно понимать ее возможности и ограничения на более фундаментальных уровнях, и текущие и будущие планы Афлатуни в отношении этого исследования будут способствовать именно этому.

«Нашим следующим шагом в этом исследовании будет изучение масштабируемости чипа, а также работа над классификацией трехмерных объектов», — говорит Афлатуни. «Тогда, возможно, мы отправимся в область классификации неоптических данных. Хотя классификация изображений является одной из первых областей исследований этого чипа, я с нетерпением жду возможности увидеть, как он будет использоваться, возможно, вместе с цифровыми платформами, для ускорения различные виды вычислений».