Укрепление доверия к моделям машинного обучения

Методы вероятностного машинного обучения становятся все более мощными инструментами анализа данных, помогая принимать важные решения в различных дисциплинах и приложениях, от прогнозирования результатов выборов до прогнозирования влияния микрозаймов на решение проблемы бедности.

Этот класс методов использует сложные концепции из теории вероятностей для обработки неопределенности при принятии решений. Но математика — это только часть головоломки в определении их точности и эффективности. При типичном анализе данных исследователи делают много субъективных выборов или потенциально допускают человеческие ошибки, которые также необходимо оценивать, чтобы повысить доверие пользователей к качеству решений, основанных на этих методах.

Чтобы решить эту проблему, специалист по информатике Массачусетского технологического института Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) и член Лаборатории систем информации и принятия решений (LIDS), и группа исследователей разработали систему классификации. — « таксономия доверия», которая определяет, где доверие может разрушиться при анализе данных, и определяет стратегии укрепления доверия на каждом этапе. Другими исследователями проекта являются профессор Анна Смит из Университета Кентукки, профессора Тянь Чжэн и Эндрю Гельман из Колумбийского университета и профессор Рэйчел Мигер из Лондонской школы экономики. Команда надеется выделить проблемы, которые уже хорошо изучены, и те, которые требуют большего внимания.

В своей статье, опубликованной в феврале в журнале Science Advances, исследователи начинают с подробного описания этапов процесса анализа данных, на которых доверие может разрушиться: аналитики делают выбор в отношении того, какие данные собирать и какие модели или математические представления наиболее точно отражают реальную проблему или вопрос, на который они стремятся ответить. . Они выбирают алгоритмы, соответствующие модели, и используют код для запуска этих алгоритмов. Каждый из этих шагов создает уникальные проблемы, связанные с построением доверия. Точность некоторых компонентов можно проверить измеримыми способами. Например, «Есть ли в моем коде ошибки?» это вопрос, который можно проверить по объективным критериям. В других случаях проблемы более субъективны, без четких ответов; аналитики сталкиваются с многочисленными стратегиями сбора данных и принятия решения о том, отражает ли модель реальный мир.

«Что, на мой взгляд, хорошо в создании этой таксономии, так это то, что она действительно подчеркивает, на чем сосредоточено внимание людей. Я думаю, что многие исследования, естественно, фокусируются на этом уровне «Решают ли мои алгоритмы конкретную математическую задачу?» отчасти потому, что это очень объективно, даже если это сложная проблема», — говорит Бродерик.

«Я думаю, что очень сложно ответить: «Разумно ли определенным образом математизировать важную прикладную проблему?» потому что это каким-то образом усложняется, это уже не просто математическая задача».

Запечатлеть реальную жизнь в модели

Работа исследователей по классификации мест, где доверие рушится, хотя и может показаться абстрактной, основана на реальных приложениях.

Мигер, соавтор статьи, проанализировал, могут ли микрофинансы оказать положительное влияние на общество. Проект стал примером того, где доверие может разрушиться, и способов снижения этого риска.

На первый взгляд измерение воздействия микрофинансирования может показаться простым делом. Но, как и при любом анализе, исследователи сталкиваются с проблемами на каждом этапе процесса, которые могут повлиять на доверие к результату. Микрофинансирование, при котором отдельные лица или малые предприятия получают небольшие кредиты и другие финансовые услуги вместо обычного банковского обслуживания, может предлагать различные услуги в зависимости от программы. Для анализа Мигер собрал наборы данных из программ микрофинансирования в странах по всему миру, в том числе в Мексике, Монголии, Боснии и на Филиппинах.

При объединении явно различающихся наборов данных, в данном случае из нескольких стран и разных культур и географических регионов, исследователи должны оценить, могут ли конкретные тематические исследования отражать более широкие тенденции. Также важно контекстуализировать имеющиеся данные. Например, в сельской местности Мексики владение козами может считаться инвестицией.

«Трудно измерить качество жизни человека. Люди измеряют такие вещи, как «Какова прибыль малого бизнеса?» или «Каков уровень потребления домохозяйства?» Существует вероятность несоответствия между тем, что вас действительно волнует, и тем, что вы измеряете», — говорит Бродерик. «Прежде чем мы перейдем к математическому уровню, на какие данные и на какие предположения мы опираемся?»

Имея данные на руках, аналитики должны определить реальные вопросы, на которые они хотят ответить. В случае оценки преимуществ микрофинансирования аналитики должны определить, что они считают положительным результатом. Например, в экономике принято измерять среднюю финансовую прибыль на одно предприятие в сообществах, где внедрена программа микрофинансирования. Но сообщение среднего значения может указывать на чистый положительный эффект, даже если пользу получили лишь несколько (или даже один) человек, а не сообщество в целом.

«На самом деле вы хотели, чтобы многие люди получали пользу», — говорит Бродерик. «Звучит просто. Почему мы не измеряли то, что нас интересовало? Но я думаю, что практикующие специалисты часто используют стандартные инструменты машинного обучения по многим причинам. И эти инструменты могут сообщать о прокси-сервере, который не всегда согласен с процентной суммой».

Аналитики могут сознательно или подсознательно отдавать предпочтение моделям, с которыми они знакомы, особенно после того, как они потратили много времени на изучение их тонкостей. «Кто-то может не решиться попробовать нестандартный метод, потому что он может быть менее уверен, что применит его правильно. Или рецензирование может отдать предпочтение некоторым знакомым методам, даже если исследователь хотел бы использовать нестандартные методы», — говорит Бродерик. «С социологической точки зрения есть много причин. Но это может быть проблемой для доверия».

Последний шаг, проверка кода

По словам Бродерика, в то время как преобразование реальной проблемы в модель может быть масштабной, аморфной проблемой, проверка кода, выполняющего алгоритм, может показаться «прозаичной». Но это еще одна потенциально упускаемая из виду область, где можно укрепить доверие.

В некоторых случаях проверка конвейера кодирования, выполняющего алгоритм, может считаться выходящей за рамки работы аналитика, особенно когда есть возможность использовать стандартные программные пакеты.

Один из способов отлова ошибок — проверка воспроизводимости кода. Однако, в зависимости от области, совместное использование кода вместе с опубликованными работами не всегда является требованием или нормой. По мере того как модели со временем усложняются, воссоздавать код с нуля становится все труднее. Воспроизведение модели становится затруднительным или даже невозможным.

«Давайте просто начнем с того, что каждый журнал требует, чтобы вы выпустили свой код. Может быть, он не подвергается полной перепроверке, и все не совсем идеально, но давайте начнем с этого», — говорит Бродерик, как один из шагов к укреплению доверия.

Соавтор статьи Гельман работал над анализом прогноза президентских выборов в США в 2020 году с использованием опросов штата и страны в режиме реального времени. Команда публиковала ежедневные обновления в The Economist, а также публиковала свой код в Интернете, чтобы каждый мог загрузить и запустить его самостоятельно. На протяжении всего сезона посторонние лица указывали на ошибки и концептуальные проблемы в модели, что в конечном итоге способствовало более тщательному анализу.

Исследователи признают, что, хотя единого решения для создания идеальной модели не существует , у аналитиков и ученых есть возможность укреплять доверие практически на каждом шагу.

«Я не думаю, что мы ожидаем, что какие-либо из этих вещей будут идеальными, — говорит Бродерик, — но я думаю, что мы можем ожидать, что они будут лучше или настолько хороши, насколько это возможно».