Ученые-компьютерщики Университета Джонса Хопкинса создали систему искусственного интеллекта, способную «воображать» свое окружение без необходимости его физического исследования, что приближает ИИ к человеческому мышлению.
Новая система, называемая Generative World Explorer, или GenEx, нуждается только в одном неподвижном изображении, чтобы создать целый мир, что дает ей значительное преимущество перед предыдущими системами, которые требовали, чтобы робот или агент физически перемещался по сцене для картирования окружающей среды, что может быть дорогостоящим, небезопасным и отнимающим много времени. Результаты команды размещены на сервере препринтов arXiv .
«Допустим, вы находитесь в месте, где никогда раньше не были, — как человек, вы используете подсказки окружающей среды, прошлый опыт и свои знания о мире, чтобы представить, что может быть за углом», — говорит старший автор Алан Юилл, заслуженный профессор вычислительной когнитивной науки Bloomberg в Университете Джонса Хопкинса.
«GenEx «воображает» и рассуждает об окружающей среде так же, как это делают люди, принимая обоснованные решения о том, какие шаги ему следует предпринять дальше, без необходимости предварительной физической проверки окружающей среды».
GenEx использует сложные мировые знания для генерации множественных возможностей того, что может существовать за пределами видимого изображения, присваивая различные вероятности каждому сценарию, а не делая единственное определенное предположение. Эта способность мысленно отображать окружение на основе ограниченных визуальных данных имеет решающее значение для многих реальных приложений, в том числе в таких сценариях, как реагирование на стихийные бедствия. Например, спасательные команды могут использовать одно изображение наблюдения, чтобы исследовать опасные места издалека без риска для людей или ценного оборудования.
«Эта технология также может улучшить навигационные приложения, помочь в обучении автономных роботов и обеспечить захватывающие игровые и виртуальные возможности», — говорит ведущий автор Джиененг Чен, аспирант в области компьютерных наук.
Из одного изображения GenEx генерирует реалистичный, синтетический виртуальный мир, в котором агенты ИИ могут перемещаться и принимать решения посредством рассуждений и планирования. Агенту нужен только вид текущей сцены, направление движения и расстояние для прохождения. Как показано в анимации ниже, агент может двигаться вперед, менять направление и исследовать свое окружение с неограниченной гибкостью.
И в отличие от сказочных приложений для исследования мира ИИ, которые сейчас набирают популярность, например, Oasis, симулятор Minecraft, созданный ИИ, среды GenEx являются согласованными. Это связано с тем, что модель была обучена на крупномасштабных данных с помощью техники, называемой «сферическое согласованное обучение», которая гарантирует, что ее прогнозы новых сред вписываются в панорамную сферу.
«Мы измеряем это, заставляя GenEx перемещаться по случайно выбранному замкнутому пути, возвращаясь к началу координат в фиксированном цикле», — говорит Чен. «Наша цель состояла в том, чтобы сделать начальный и конечный виды идентичными, тем самым обеспечивая согласованность в моделировании мира GenEx».
Хотя такая последовательность свойственна не только GenEx, исследовательская группа утверждает, что это первый и единственный генеративный исследователь мира, который позволяет агентам ИИ принимать логические решения на основе новых наблюдений за миром, который они исследуют, в процессе, который специалисты по информатике называют «политикой, дополненной воображением».
Например, вы ведете машину, и впереди горит зеленый свет, но вы замечаете, что такси перед вами резко и неожиданно остановилось. Выходить из машины, чтобы разобраться, небезопасно, но, представив себе ситуацию с точки зрения таксиста, вы можете предположить возможную причину его внезапной остановки: возможно, приближается машина скорой помощи, и вам тоже следует уступить дорогу.
«В то время как люди могут использовать другие сигналы, например, сирены, чтобы определить подобную ситуацию, современные модели искусственного интеллекта, разработанные для автономного вождения и других подобных задач, имеют доступ только к изображениям и языковым данным, что делает творческие исследования необходимыми при отсутствии другой мультимодальной информации», — говорит Чэнь.
Команда Хопкинса оценила согласованность и качество вывода GenEx по сравнению со стандартными показателями генерации видео. Исследователи также провели эксперименты с пользователями-людьми, чтобы определить, может ли GenEx расширить их логические и плановые способности и как это сделать, и обнаружили, что пользователи принимали более точные и обоснованные решения, когда имели доступ к исследовательским возможностям модели.
«Наши экспериментальные результаты показывают, что GenEx может генерировать высококачественные, последовательные наблюдения во время расширенного исследования большого виртуального физического мира», — говорит Чен. «Кроме того, убеждения, обновленные с помощью сгенерированных наблюдений, могут информировать существующую модель принятия решений, например, агента большой языковой модели, и даже пользователей-людей для составления лучших планов».
Вместе с Тяньминем Шу и Дэниелом Хашаби, доцентами кафедры компьютерных наук, а также студентом бакалавриата Таймином Лу, Юйл и Чэнь будут использовать реальные данные датчиков и динамические сцены для создания более реалистичных, захватывающих сценариев планирования.
Заслуженный профессор компьютерного зрения и искусственного интеллекта Bloomberg Рама Челлаппа и доцент-исследователь Математического института науки о данных Чэн Пэн помогут в обработке реальных данных с датчиков.
По словам Юйлла , междисциплинарный проект, включающий компьютерное зрение, обработку естественного языка и когнитивную науку, знаменует собой значительное достижение на пути к созданию человеческого интеллекта в воплощенном ИИ.