То, что начиналось как докторский проект, превратилось в веб-сайт, ежегодно посещаемый 120 000 уникальных посетителей. С помощью платформы OpenML исследователь Ян ван Рейн вносит вклад в развитие открытой науки, стремясь сделать машинное обучение более прозрачным, доступным и справедливым.
От климатических исследований до поведенческой науки: машинное обучение (МО) играет всё более важную роль в науке. Исследователи используют его для выявления закономерностей в больших наборах данных, построения прогнозов и моделирования сложных процессов. Однако, несмотря на этот рост, результаты МО всё ещё сложно оценить или воспроизвести.
«Не существует стандартного способа обмена данными, моделями и результатами», — говорит Ян ван Рейн. «Это печально, ведь если мы хотим, чтобы нас воспринимали всерьёз как отрасль, нам нужно убедиться, что наша работа поддаётся проверке и воспроизводима».
Что такое машинное обучение?
Машинное обучение — это способ, которым компьютеры обучаются на примерах, подобно почтовой программе, распознающей спам на основе тысяч предыдущих сообщений. Система самостоятельно учится выявлять закономерности, без необходимости ручного программирования каждого правила. В некотором смысле, это похоже на человеческое обучение, только в гораздо большем масштабе. Применение можно найти повсюду: от распознавания лиц и медицинской диагностики до рекомендаций Netflix.
Общее рабочее пространство для машинного обучения
Чтобы сделать машинное обучение более прозрачным, Ван Рейн более десяти лет назад основал OpenML: общее цифровое рабочее пространство, куда исследователи и студенты могут загружать свои наборы данных, алгоритмы и эксперименты. Любой желающий может просматривать данные, вносить свой вклад и учиться на чужих подходах. Эта платформа идеально соответствует принципам открытой науки : науки, которая доступна, проверяема и допускает многократное использование.
И потребность в этом очевидна. OpenML сейчас используется во всем мире и уже использован примерно в 1500 научных публикациях . Ван Рейн и его коллеги-исследователи недавно описали десятилетнюю историю OpenML в публикации в журнале Patterns. Они выделили три основных способа использования платформы исследователями: для улучшения алгоритмов, для получения более глубокого понимания посредством так называемого метаобучения и для преподавания.
«OpenML часто используется в курсах по машинному обучению и воспроизводимым исследованиям», — говорит он.
«Дело не в том, что исследователи не хотят делиться своим кодом»
Открытые практики всё ещё далеки от стандарта. «В науке существует множество различных исследовательских культур», — объясняет Ван Рейн. «Это открывает ценные перспективы, но также означает отсутствие общих стандартов. Создание и применение единого стандарта требует много времени и усилий. Дело не в том, что исследователи не хотят делиться своим кодом — это просто увеличивает объём работы. Даже на такой платформе, как наша».
Тем не менее, Ван Рейн верен своей миссии. «Цель — создать что-то вроде Википедии для машинного обучения, но не только с текстом. Также с данными, моделями и экспериментами. Всё необходимое для понимания, воспроизведения и развития исследований».
OpenML — это больше, чем просто платформа
Он видит, как открытая наука постепенно становится всё более популярной. «Наши публикации цитируются чаще, что способствует этому. Но необходима и структурная поддержка — как со стороны университетов, так и со стороны спонсоров. Например, сделать открытым обмен кодом и данными обязательным условием».
Итак, OpenML — это больше, чем просто платформа. Это шаг к научной культуре, основанной на сотрудничестве, прозрачности и повторном использовании данных. «Есть и другие платформы, подобные нашей», — говорит Ван Рейн. «Наша цель — разрушить эту разобщённость и объединить их. Чтобы обмен результатами исследований стал ещё проще — для всех».




