Модели ИИ часто полагаются на «ложные корреляции», принимая решения на основе неважной и потенциально вводящей в заблуждение информации. Исследователи теперь обнаружили, что эти выученные ложные корреляции можно отследить до очень небольшого подмножества обучающих данных, и продемонстрировали метод, который преодолевает эту проблему.
«Эта методика нова тем, что ее можно использовать, даже если вы понятия не имеете, на какие ложные корреляции опирается ИИ», — говорит Чон-Ын Ким, автор-корреспондент статьи о работе и доцент кафедры компьютерных наук в Университете штата Северная Каролина.
«Если у вас уже есть хорошее представление о том, какие ложные признаки существуют, наша методика является эффективным и действенным способом решения проблемы. Однако даже если у вас просто проблемы с производительностью, но вы не понимаете, почему, вы все равно можете использовать нашу методику, чтобы определить, существует ли ложная корреляция, и решить эту проблему».
Ложные корреляции обычно вызваны смещением простоты во время обучения ИИ. Практикующие используют наборы данных для обучения моделей ИИ для выполнения определенных задач. Например, модель ИИ может быть обучена распознавать фотографии собак. Набор данных для обучения будет включать фотографии собак, где ИИ сообщается, что на фотографии есть собака.
В процессе обучения ИИ начнет определять конкретные черты, которые он может использовать для идентификации собак. Однако, если многие собаки на фотографиях носят ошейники, и поскольку ошейники, как правило, являются менее сложными чертами собаки, чем уши или мех, ИИ может использовать ошейники как простой способ идентификации собак. Вот как смещение простоты может привести к ложным корреляциям.
«И если ИИ использует ошейники в качестве фактора, по которому он идентифицирует собак, то ИИ может идентифицировать кошек, носящих ошейники, как собак», — говорит Ким.
Традиционные методы решения проблем, вызванных ложными корреляциями, полагаются на то, что специалисты способны идентифицировать ложные признаки, вызывающие проблему. Затем они могут решить эту проблему, изменив наборы данных, используемые для обучения модели ИИ. Например, специалисты могут увеличить вес, придаваемый фотографиям в наборе данных, которые включают собак без ошейников.
Однако в своей новой работе исследователи демонстрируют, что не всегда возможно выявить ложные признаки, вызывающие проблемы, что делает традиционные методы устранения ложных корреляций неэффективными.
«Целью нашей работы было разработать методику, которая позволит нам отсекать ложные корреляции, даже если мы ничего не знаем об этих ложных признаках», — говорит Ким.
Новый метод основан на удалении небольшой части данных, используемых для обучения модели ИИ.
«В выборках данных, включенных в наборы обучающих данных , могут быть значительные различия », — говорит Ким. «Некоторые из выборок могут быть очень простыми, а другие — очень сложными. И мы можем измерить, насколько «сложным» является каждый образец, основываясь на том, как модель вела себя во время обучения.
«Наша гипотеза заключалась в том, что самые сложные образцы в наборе данных могут быть зашумленными и неоднозначными и с большой вероятностью заставят сеть полагаться на нерелевантную информацию, что повлияет на эффективность модели», — объясняет Ким.
«Удаляя небольшую часть обучающих данных, которую трудно понять, вы также устраняете жесткие образцы данных, содержащие ложные признаки. Такое исключение решает проблему ложных корреляций, не вызывая существенных неблагоприятных последствий».
Исследователи продемонстрировали, что новая технология позволяет достичь передовых результатов — производительность повышается даже по сравнению с предыдущими работами на моделях, где ложные признаки поддавались идентификации.
Рецензируемая статья «Устранение ложных корреляций с помощью сокращения данных» будет представлена на Международной конференции по представлениям данных в обучении ( ICLR 2025 ), которая пройдет в Сингапуре с 24 по 28 апреля.