Преобразователи зрения (ViT) — это мощные технологии искусственного интеллекта (ИИ), которые могут идентифицировать или классифицировать объекты на изображениях, однако существуют серьезные проблемы, связанные как с требованиями к вычислительной мощности, так и с прозрачностью принятия решений. Исследователи разработали новую методологию, которая решает обе проблемы, а также улучшает способность ViT идентифицировать, классифицировать и сегментировать объекты на изображениях.
Трансформеры являются одними из самых мощных существующих моделей ИИ. Например, ChatGPT — это ИИ, который использует архитектуру преобразователя, но входные данные, используемые для его обучения, — это язык. ViT — это искусственный интеллект на основе трансформеров, который обучается с помощью визуальных входных данных. Например, ViT можно использовать для обнаружения и классификации объектов на изображении, например для идентификации всех автомобилей или всех пешеходов на изображении.
Однако ViT сталкиваются с двумя проблемами.
Во-первых, модели-трансформеры очень сложные. По сравнению с объемом данных, загружаемых в ИИ, модели трансформаторов требуют значительных вычислительных мощностей и используют большой объем памяти. Это особенно проблематично для ViT, потому что изображения содержат очень много данных.
Во-вторых, пользователям трудно понять, как именно ViTs принимают решения. Например, вы могли обучить ViT распознавать собак на изображении. Но не совсем понятно, как ViT определяет, что является собакой, а что нет. В зависимости от приложения понимание процесса принятия решений ViT, также известного как интерпретируемость модели, может быть очень важным.
Новая методология ViT, называемая «Patch-to-Cluster Attention» (PaCa), решает обе проблемы.
«Мы решаем проблему, связанную с требованиями к вычислительным ресурсам и памяти, с помощью методов кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — говорит Тианфу Ву, автор статьи о работе и доцент Электротехника и вычислительная техника в Университете штата Северная Каролина.
«Кластеризация — это когда ИИ объединяет части изображения вместе на основе сходства, которое он находит в данных изображения. Это значительно снижает вычислительные требования к системе. До кластеризации вычислительные требования для ViT являются квадратичными. Например, если система ломается. если изображение разбить на 100 меньших единиц, потребуется сравнить все 100 единиц друг с другом, что составит 10 000 сложных функций».
«С помощью кластеризации мы можем сделать это линейным процессом, в котором каждую меньшую единицу нужно сравнивать только с заранее определенным количеством кластеров. Допустим, вы говорите системе создать 10 кластеров; это будет всего 1000 сложных функций, — говорит Ву.
«Кластеризация также позволяет нам решить проблему интерпретируемости модели, потому что мы можем посмотреть, как он создал кластеры в первую очередь. Какие функции он решил важным при объединении этих разделов данных вместе? И потому, что ИИ создает лишь небольшое количество кластеров, мы можем довольно легко на них взглянуть».
Исследователи провели всестороннее тестирование PaCa, сравнив его с двумя современными ViT, называемыми SWin и PVT.
«Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях», — говорит Ву. «PaCa лучше справлялась с классификацией объектов на изображениях, лучше с идентификацией объектов на изображениях и лучше с сегментацией — по сути, очерчивая границы объектов на изображениях. другие ViTs».
«Следующим шагом для нас является расширение PaCa путем обучения на более крупных базовых наборах данных».
Доклад «PaCa-ViT: изучение внимания к кластеру в преобразователях зрения» будет представлен на конференции IEEE/CVF по компьютерному зрению и распознаванию образов, которая состоится 18–22 июня в Ванкувере, Канада.