Аудиообъяснимый искусственный интеллект: демистификация моделей «черного ящика»

Принятие решений с помощью ИИ теперь широко распространено в беспилотных автомобилях, диагностике пациентов и юридических консультациях, и оно должно быть безопасным и заслуживающим доверия. Исследователи пытались демистифицировать сложные модели ИИ, разрабатывая интерпретируемые и прозрачные модели, известные под общим названием «объяснимые методы ИИ» или «объяснимые методы ИИ» (XAI). Исследовательская группа поделилась своим взглядом на аудиомодели XAI в обзорной статье, опубликованной в журнале Intelligent Computing.

Хотя звуковые задачи менее исследованы, чем зрительные, их выразительная сила не менее важна. Звуковые сигналы легко понять и передать, поскольку они обычно меньше зависят от объяснений экспертов, чем визуальные сигналы. Более того, такие сценарии, как распознавание речи и классификация звуков окружающей среды, по своей сути специфичны для звука.

В обзоре существующие методы аудио XAI разделены на две группы: общие методы, применимые к аудиомоделям, и методы, специфичные для аудио.

Использование общих методов означает выбор подходящей общей модели, изначально созданной для задач, не связанных со звуком, и настройку ее для конкретной задачи со звуком. Эти методы объясняют аудиомодели с помощью различных входных представлений, таких как спектрограммы и формы сигналов, а также различных выходных форматов, таких как функции, примеры и концепции.

Популярные общие методы включают управляемое обратное распространение ошибки, которое расширяет стандартный процесс обратного распространения ошибки, выделяя наиболее важные части входных данных; LIME, который аппроксимирует сложную модель более простой моделью; и сетевой анализ, который анализирует внутренние представления, полученные нейронной сетью.

С другой стороны, методы, специфичные для аудио, специально разработаны для аудиозадач. Они стремятся разложить аудиовходы на значимые компоненты, уделяя особое внимание слуховой природе аудиоданных. Некоторыми примерами являются CoughLIME, который предоставляет ультразвуковые объяснения звуков кашля при обнаружении COVID-19, и audioLIME, который использует разделение источников для объяснения моделей музыкальных тегов, приписывая важность аудиокомпонентам.

Методы XAI также можно классифицировать по их стадии, области применения, типу входных данных и формату вывода. Стадия относится к периоду, когда генерируются объяснения до, во время или после процесса обучения. Область действия определяет, предназначено ли объяснение для всей модели или для конкретных входных данных.

XAI обычно включает в себя различные стратегии, такие как объяснение с помощью заранее определенных правил или конкретных примеров ввода, выделение наиболее важных функций, областей фокусировки или изменений входных данных, а также использование более простых моделей для локального объяснения сложных.

Исследовательская группа определяет несколько способов сделать аудиомодели более интерпретируемыми, например, использование необработанных сигналов или спектрограмм для предоставления удобных для прослушивания объяснений и определение концепций более высокого уровня в аудиоданных, что аналогично тому, как суперпиксели используются в данных изображения. Они также считают, что выразительная сила звуковых объяснений может быть распространена на неаудио модели, и одной из возможностей может быть предложение дополнительного канала связи для взаимодействия с пользователем на основе зрения.