Обучение роботов улучшению управления полетными системами и другими приложениями, требующими быстрого реагирования.
Коммерческие самолеты могут управляться автопилотом. Но что произойдет, если крыло повредится или двигатель выйдет из строя? Можно ли разработать программную систему с петлей обратной связи — систему, которая быстро проверяет, как работает система управления на поврежденном судне, и вносит коррективы на лету, чтобы дать ему наилучшие шансы на безопасную посадку?
Исследовательская группа из Принстона, Техасского университета и Северо-восточного университета работает над тем, чтобы проложить путь к созданию такой системы. «Фундаментальное исследование, которое проводит команда, может когда-нибудь распространиться на управление самолетами и многие другие приложения, включая борьбу с эпидемиями болезней или более точные прогнозы изменения климата или выживания видов», — сказал Амир Али Ахмади, профессор исследования операций и финансового инжиниринга в Принстоне. член исследовательской группы.
Цель состоит в том, чтобы установить меры контроля над «динамической системой», которая меняется по мере движения. Известно, что большинство динамических систем трудно прогнозировать и управлять ими. Ахмади вместе с коллегами Чарльзом Фефферманом, профессором математики Университета Герберта Э. Джонса-младшего 43 года, и Кларенсом Роули, профессором инженерных наук Sin-I Cheng, пытаются разработать алгоритмы, которые могут изучать поведение динамических систем. из данных.
«Динамическая система — это любая сущность в некотором пространстве, которая развивается во времени», — сказал Ахмади. «Итак, самолет — это динамическая система, робот — это динамическая система, распространение вируса — это динамическая система».
По словам Ахмади, получить контроль особенно сложно, когда данные ограничены. В случае с поврежденным самолетом «самолет изменился, и у вас меньше минуты, чтобы придумать новую модель управления», — сказал он.
Распространенной проблемой является прогнозирование будущей производительности на основе чрезвычайно разреженных данных. Трудно рекомендовать наилучший ответ на вспышку заболевания, например, когда очень мало известно о распространении болезни.
В недавней статье в SIAM Review исследовательская группа Ахмади представила подход, который использует дополнительную информацию для быстрого реагирования на меняющиеся условия, в которых для принятия решений доступно мало данных. Эта дополнительная информация, которую математики называют побочной, действует так же, как опыт или профессиональные знания для человека. Например, врач может никогда раньше не сталкиваться с определенным заболеванием, но многолетний опыт поможет ему принять правильное решение о том, как лечить пациента.
«Это то, о чем весь этот проект», — сказал Ахмади. «Речь идет об изучении системы из очень небольшого количества данных и, в конечном итоге, о контроле ее так, как мы хотим».
Начиная с простого
Долгосрочные цели, такие как управление воздушным судном, выходят за рамки непосредственного проекта. Скорее, работа в рамках гранта ВВС сосредоточена на гораздо более простых примерах в надежде узнать больше об управлении системой, пронизанной неизвестными.
«В стандартной теории управления вы понимаете, что делают элементы управления. Мы пытаемся сделать более мощную версию этой теории, в которой вы не знаете, что делают элементы управления, но учитесь, применяя их», — сказал Фефферман. Он работает с Роули над относительно простыми подзадачами динамических систем — например, пытается временно остановить объект, когда он движется по прямой линии с постоянной скоростью. Кроме того, исследователи хотят использовать как можно меньше энергии для осуществления управления — так же, как пилоту хотелось бы делать в самолете с ограниченным запасом топлива.
Еще одна проблема, которую они могут решить, — это расширенная версия задачи, которую обычно задают студентам бакалавриата в области машиностроения: управление перевернутым маятником — подобно попытке сбалансировать метлу на ладони. Контроллер изучил бы поведение системы почти мгновенно и не знал бы, где сосредоточена ее масса. Для этого они создавали уравнения для элементов управления на основе нескольких секунд наблюдения, а затем изменяли элементы управления после записи того, что они делают. Модель будет разработана так, чтобы быстро пройти несколько итераций обучения и контроля.
Знание против контроля
По словам Роули, проблемы, которые исследует команда, связаны с поиском компромисса между изучением функциональности и использованием полученных знаний. «Если вы воспользуетесь своими знаниями слишком рано, модель может быть недостаточно хороша для посадки самолета. Но если вы потратите слишком много времени на изучение ее поведения, самолет может разбиться».
Не существует единого метода управления системой с неизвестной динамикой, сказал Уфук Топку, член команды и доцент Техасского университета. Но один из ключей — выбрать наиболее ценные данные для работы. «Вы должны решать ее с разных сторон и разбивать большую проблему на более управляемые части, чтобы определить, что стоит изучить», — сказал он.
Исследователи рассчитывают иметь алгоритмы для управления по крайней мере некоторыми аспектами динамической системы . По словам Ахмади, хотя их модель может быть недостаточно быстрой для работы в режиме реального времени, она должна показать, какие элементы управления возможны в меняющейся системе и с какой степенью уверенности они могут быть успешными.
Статья «Изучение динамических систем с побочной информацией» была опубликована в февральском номере журнала SIAM Review.