Превращение чувств в медиа: можем ли мы научить искусственный интеллект воспринимать?

Люди воспринимают мир с помощью различных органов чувств: мы видим, чувствуем, слышим, пробуем на вкус и обоняем. Различные органы чувств, с помощью которых мы воспринимаем, представляют собой несколько каналов информации, также известных как мультимодальные. Означает ли это, что то, что мы воспринимаем, можно рассматривать как мультимедиа?

Сюэ Ван, доктор философии Кандидат в LIACS, переводит восприятие в мультимедиа и использует искусственный интеллект (ИИ) для извлечения информации из мультимодальных процессов, подобно тому, как мозг обрабатывает информацию. В своем исследовании она протестировала процессы обучения ИИ четырьмя различными способами.

Размещение слов в векторах

Сначала Сюэ изучил встроенное в слова обучение: перевод слов в векторы. Вектор — это величина, обладающая двумя свойствами, а именно направлением и величиной. В частности, эта часть посвящена тому, как можно улучшить классификацию информации. Сюэ предложил использовать новую модель ИИ, которая связывает слова с изображениями, упрощая классификацию слов. Во время тестирования модели наблюдатель мог вмешаться, если ИИ сделал что-то не так. Исследования показывают, что эта модель работает лучше, чем ранее использовавшаяся модель.

Просмотр подкатегорий

Вторым направлением исследования являются изображения, сопровождаемые другой информацией. Для этой темы Сюэ отметил потенциал маркировки подкатегорий, также известной как мелкозернистая маркировка. Она использовала специальную модель искусственного интеллекта, чтобы упростить классификацию изображений с небольшим текстом вокруг них. Он объединяет грубые метки, которые являются общими категориями, с мелкими метками, подкатегориями. Этот подход эффективен и полезен при структурировании простых и сложных категорий.

Нахождение отношений между изображениями и текстом

В-третьих, Сюэ исследовала ассоциацию изображения и текста. Проблема с этой темой заключается в том, что преобразование этой информации нелинейно, а это означает, что ее может быть трудно измерить. Сюэ нашла потенциальное решение этой проблемы: она использовала преобразование на основе ядра. Ядро означает особый класс алгоритмов машинного обучения . С помощью используемой модели ИИ теперь может видеть смысловую связь между изображениями и текстом.

Поиск контраста в изображениях и тексте

Наконец, Сюэ сосредоточился на изображениях, сопровождаемых текстом. В этой части ИИ должен был смотреть на контрасты между словами и изображениями. Модель ИИ выполнила задачу, называемую заземлением фраз, которая представляет собой связь существительных в подписях к изображениям с частями изображения. Не было наблюдателя, который мог бы вмешаться в эту задачу. Исследование показало, что ИИ может связывать области изображения с существительными со средней точностью для этой области исследований.

Восприятие искусственного интеллекта

Это исследование предлагает большой вклад в область мультимедийной информации: мы видим, что ИИ может классифицировать слова, классифицировать изображения и связывать изображения с текстом. Дальнейшие исследования могут использовать методы, предложенные Сюэ, и мы надеемся, что они приведут к еще лучшему пониманию мультимедийного восприятия ИИ.