Как определить, работает ли искусственный интеллект так, как мы хотим

Около десяти лет назад модели глубокого обучения начали достигать сверхчеловеческих результатов в самых разных задачах, от победы над чемпионами мира по настольным играм до превосходства врачей в диагностике рака груди.

Эти мощные модели глубокого обучения обычно основаны на искусственных нейронных сетях , которые были впервые предложены в 1940-х годах и стали популярным типом машинного обучения. Компьютер учится обрабатывать данные, используя слои взаимосвязанных узлов или нейронов, которые имитируют человеческий мозг.

По мере роста области машинного обучения росли и искусственные нейронные сети.

Модели глубокого обучения в настоящее время часто состоят из миллионов или миллиардов взаимосвязанных узлов на многих уровнях, которые обучены выполнять задачи обнаружения или классификации с использованием огромных объемов данных. Но поскольку модели чрезвычайно сложны, даже исследователи, которые их разрабатывают, не до конца понимают, как они работают. Из-за этого трудно понять, правильно ли они работают.

Например, возможно, модель, разработанная, чтобы помочь врачам диагностировать пациентов, правильно предсказала, что поражение кожи было раковым, но сделала это, сосредоточившись на несвязанной отметке, которая часто появляется, когда на фотографии есть раковая ткань, а не на раковой ткани. сама ткань. Это известно как ложная корреляция. Модель делает правильный прогноз, но делает это по неверной причине. В реальных клинических условиях, когда метка не появляется на изображениях с положительным результатом на рак, это может привести к пропуску диагноза.

При таком большом количестве неопределенности вокруг этих так называемых моделей «черного ящика» как можно разгадать, что происходит внутри ящика?

Эта загадка привела к новой и быстро растущей области исследований, в которой исследователи разрабатывают и тестируют методы объяснения (также называемые методами интерпретируемости), которые стремятся пролить свет на то, как модели машинного обучения «черный ящик» делают прогнозы.

Что такое методы объяснения?

На самом базовом уровне методы объяснения бывают либо глобальными, либо локальными. Метод локального объяснения фокусируется на объяснении того, как модель сделала один конкретный прогноз, в то время как глобальное объяснение направлено на описание общего поведения всей модели. Это часто делается путем разработки отдельной, более простой (и, надеюсь, понятной) модели, которая имитирует более крупную модель черного ящика.

Но поскольку модели глубокого обучения работают принципиально сложными и нелинейными способами, разработка эффективной модели глобального объяснения является особенно сложной задачей. Это привело к тому, что в последнее время исследователи сосредоточили свое внимание на методах локального объяснения, объясняет Илун Чжоу, аспирант группы интерактивной робототехники Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), изучающий модели, алгоритмы и оценки в интерпретируемых машинное обучение.

Наиболее популярные типы методов локального объяснения делятся на три широкие категории.

Первый и наиболее широко используемый тип метода объяснения известен как атрибуция признаков. Методы атрибуции функций показывают, какие функции были наиболее важными, когда модель принимала конкретное решение.

Функции — это входные переменные, которые передаются модели машинного обучения и используются в ее прогнозировании. Когда данные являются табличными, функции рисуются из столбцов в наборе данных (они преобразуются с использованием различных методов, чтобы модель могла обрабатывать необработанные данные). С другой стороны, для задач обработки изображений каждый пиксель изображения является функцией. Например, если модель предсказывает, что на рентгеновском изображении показан рак, метод атрибуции признаков выделит пиксели на этом конкретном рентгеновском снимке, которые были наиболее важны для предсказания модели.

По сути, методы атрибуции признаков показывают, на что модель обращает наибольшее внимание при прогнозировании.

«Используя это объяснение атрибуции функции, вы можете проверить, не вызывает ли беспокойство ложная корреляция. Например, она покажет, выделены ли пиксели в водяном знаке или выделены пиксели в реальной опухоли», — говорит Чжоу.

Второй тип метода объяснения известен как контрфактическое объяснение. При наличии входных данных и прогноза модели эти методы показывают, как изменить эти входные данные, чтобы они попали в другой класс. Например, если модель машинного обучения предсказывает, что заемщику будет отказано в ссуде, контрфактическое объяснение показывает, какие факторы необходимо изменить, чтобы ее заявка на ссуду была принята. Возможно, ее кредитный рейтинг или доход — обе характеристики, используемые в прогнозе модели, — должны быть выше, чтобы она была одобрена.

«Преимущество этого метода объяснения заключается в том, что он говорит вам, как именно вам нужно изменить ввод, чтобы изменить решение, что может иметь практическое применение. Для тех, кто подает заявку на ипотеку и не получил ее, это объяснение скажет вам им, что им нужно сделать, чтобы достичь желаемого результата», — говорит он.

Третья категория методов объяснения известна как объяснение важности выборки. В отличие от других, этот метод требует доступа к данным, которые использовались для обучения модели.

Объяснение важности выборки покажет, на какую обучающую выборку больше всего полагалась модель, когда делала конкретный прогноз; в идеале это наиболее похожая на входные данные выборка. Этот тип объяснения особенно полезен, если кто-то наблюдает кажущееся иррациональным предсказание. Возможно, произошла ошибка ввода данных, которая повлияла на конкретную выборку, которая использовалась для обучения модели. Обладая этими знаниями, можно исправить этот образец и переобучить модель, чтобы повысить ее точность.

Как используются методы объяснения?

Одним из мотивов разработки этих объяснений является обеспечение качества и отладка модели. Например, при лучшем понимании того, как функции влияют на решение модели, можно определить, что модель работает неправильно, и вмешаться, чтобы исправить проблему, или выбросить модель и начать заново.

Другая, более поздняя область исследований — изучение использования моделей машинного обучения для обнаружения научных закономерностей, которые люди раньше не открывали. Например, модель диагностики рака, которая превосходит клиницистов, может быть ошибочной, или она может фактически улавливать некоторые скрытые закономерности на рентгеновском изображении, которые представляют собой ранний патологический путь развития рака, который либо был неизвестен врачам-людям, либо считался неизвестным. не имеет значения, говорит Чжоу.

Однако для этой области исследований еще очень рано.

Слова предупреждения

Хотя методы объяснения иногда могут быть полезны для специалистов по машинному обучению, когда они пытаются отловить ошибки в своих моделях или понять внутреннюю работу системы, конечные пользователи должны проявлять осторожность при попытке использовать их на практике, говорит Марзиех Гассеми. , доцент и руководитель группы Healthy ML в CSAIL.

По мере того как машинное обучение применяется во многих дисциплинах, от здравоохранения до образования, методы объяснения используются, чтобы помочь лицам, принимающим решения, лучше понять прогнозы модели, чтобы они знали, когда доверять модели и использовать ее рекомендации на практике. Но Гассеми предостерегает от использования этих методов таким образом.

«Мы обнаружили, что объяснения делают людей, как экспертов, так и неспециалистов, чрезмерно уверенными в способности или совете конкретной системы рекомендаций. Я думаю, что для людей очень важно не отключать эту внутреннюю схему, спрашивая: «Позвольте мне подвергнуть сомнению совет». что мне
дано», — говорит она.

Ученые знают, что объяснения делают людей слишком самоуверенными, основываясь на другой недавней работе, добавляет она, ссылаясь на некоторые недавние исследования исследователей Microsoft.

Далекие от серебряной пули, методы объяснения имеют свою долю проблем. Во-первых, недавнее исследование Гассеми показало, что методы объяснения могут закреплять предубеждения и приводить к худшим результатам для людей из неблагополучных групп.

Еще одна ловушка методов объяснения заключается в том, что часто невозможно сказать, верен ли метод объяснения с самого начала. По словам Чжоу, нужно будет сравнить объяснения с реальной моделью, но, поскольку пользователь не знает, как работает модель, это круговая логика.

Он и другие исследователи работают над улучшением методов объяснения, чтобы они более точно соответствовали предсказаниям реальной модели, но Чжоу предупреждает, что даже самое лучшее объяснение следует воспринимать с долей скептицизма.

«Кроме того, люди обычно воспринимают эти модели как человекоподобные лица, принимающие решения, а мы склонны к чрезмерному обобщению. сбалансированы», — добавляет он.

Последнее исследование Чжоу направлено именно на это.

Что дальше с методами машинного обучения?

Гассеми утверждает, что вместо того, чтобы сосредотачиваться на предоставлении объяснений, исследовательское сообщество должно приложить больше усилий для изучения того, как информация представляется лицам, принимающим решения, чтобы они ее понимали, и необходимо ввести больше правил, чтобы гарантировать, что модели машинного обучения ответственно использовать на практике. Одни только лучшие методы объяснения не являются ответом.

«Я был рад видеть, что даже в отрасли стало намного больше признания того, что мы не можем просто взять эту информацию и сделать красивую панель инструментов и предположить, что люди будут работать лучше с ней. Вам нужны измеримые улучшения в действии. , и я надеюсь, что это приведет к реальным рекомендациям по улучшению того, как мы отображаем информацию в таких глубоко технических областях, как медицина», — говорит она.

И в дополнение к новой работе, направленной на улучшение объяснений, Чжоу ожидает увидеть больше исследований, связанных с методами объяснения для конкретных случаев использования, таких как отладка моделей, научные открытия, аудит справедливости и обеспечение безопасности. Определив детализированные характеристики методов объяснения и требования различных вариантов использования, исследователи могли бы создать теорию, которая соответствовала бы объяснениям с конкретными сценариями, что могло бы помочь преодолеть некоторые ловушки, связанные с их использованием в реальных сценариях.