Представлен стенд для оценки мышления ИИ

Испытательный стенд для оценки навыков физического мышления агентов ИИ.

Люди от природы способны рассуждать о поведении различных физических объектов в их окружении. Эти физические навыки мышления невероятно ценны для решения повседневных задач, поскольку они могут помочь нам выбрать более эффективные действия для достижения конкретных целей.

Некоторые ученые-компьютерщики пытались воспроизвести эти способности к рассуждениям у агентов искусственного интеллекта (ИИ) , чтобы повысить их производительность при выполнении конкретных задач . Однако до сих пор отсутствовал надежный подход к обучению и оценке возможностей физического мышления алгоритмов ИИ.

Cheng Xue, Vimukthini Pinto, Chathura Gamage и их коллеги, группа исследователей из Австралийского национального университета, недавно представили Phy-Q, новый испытательный стенд , предназначенный для заполнения этого пробела в литературе. Их испытательный стенд, представленный в статье в журнале Nature Machine Intelligence , включает в себя ряд сценариев, которые специально оценивают физические способности агента ИИ.

«Физическое мышление — важная способность агентов ИИ для работы в реальном мире , и мы поняли, что не существует комплексных испытательных стендов и мер для оценки физического интеллекта агентов ИИ», — сказал Пинто Tech Xplore. «Наша основная цель заключалась в том, чтобы представить удобный для агентов испытательный стенд вместе с мерой физического интеллекта, оценить современные агенты ИИ вместе с людьми на предмет их физических способностей мышления и предоставить руководство для агентов в AIBIRDS. соревнование, продолжительное соревнование по физическому мышлению, проводимое в IJCAI и организованное профессором Йохеном Ренцом».

Испытательный стенд Phy-Q состоит из 15 различных сценариев физического мышления, вдохновленных ситуациями, в которых младенцы приобретают способности к физическому мышлению, и реальными случаями, в которых роботам может понадобиться использовать эти способности. Для каждого сценария исследователи создали несколько так называемых «шаблонов задач», модулей, которые позволяют им измерять обобщаемость навыков агента ИИ как в локальных, так и в более широких условиях. Их испытательный стенд включает в себя в общей сложности 75 шаблонов задач.

«Благодаря локальному обобщению мы оцениваем способность агента делать обобщения в рамках заданного шаблона задачи, а посредством широкого обобщения мы оцениваем способность агента делать обобщения между различными шаблонами задач в заданном сценарии», — пояснил Гэмидж. «Более того, объединяя широкие возможности обобщения в 15 физических сценариях, мы измеряем Phy-Q, коэффициент физического мышления, показатель, вдохновленный человеческим IQ».

Исследователи продемонстрировали эффективность своего испытательного стенда, используя его для проведения серии оценок агентов ИИ. Результаты этих тестов показывают, что физические навыки мышления агентов ИИ все еще гораздо менее развиты, чем человеческие способности, поэтому в этой области еще есть значительные возможности для улучшения.

«Из этого исследования мы увидели, что возможности физического мышления систем ИИ намного ниже уровня способностей человека», — сказал Сюэ. «Кроме того, наша оценка показывает, что агенты с хорошими способностями к локальному обобщению с трудом изучают основные правила физического мышления и не могут обобщать в целом. Теперь мы приглашаем коллег-исследователей использовать испытательный стенд Phy-Q для разработки своих систем искусственного интеллекта физического мышления».

Испытательный стенд Phy-Q вскоре может быть использован исследователями по всему миру для систематической оценки физических способностей своих моделей ИИ в различных физических сценариях. Это, в свою очередь, может помочь разработчикам определить сильные и слабые стороны своей модели, чтобы они могли соответствующим образом их улучшить.

В своих следующих исследованиях авторы планируют объединить свой испытательный стенд физического мышления с подходами к обучению в открытом мире. Последнее представляет собой новую область исследований, направленную на улучшение способности агентов и роботов ИИ адаптироваться к новым ситуациям.

«В реальном мире мы постоянно сталкиваемся с новыми ситуациями, с которыми раньше не сталкивались, и, как люди, мы способны успешно адаптироваться к этим новым ситуациям», — добавили авторы. «Аналогичным образом для агента, который работает в реальном мире, наряду с физическими способностями к рассуждению крайне важно иметь возможность обнаруживать и адаптироваться к новым ситуациям. Поэтому наши будущие исследования будут сосредоточены на содействии развитию агентов ИИ, которые могут выполнять физические логические задачи в различных новых ситуациях».