Новая модель машинного обучения для прогнозирования урожайности сельскохозяйственных культур с использованием данных об окружающей среде и генетической информации может быть использована для разработки новых, более производительных сортов сельскохозяйственных культур.
Игорь Фернандес, студент магистратуры по статистике и аналитике в Университете Арканзаса, начал изучать сельское хозяйство, имея опыт работы с данными и некоторое знакомство с агрономией в качестве ассистента бакалавриата в Embrapa, Бразильской сельскохозяйственной исследовательской корпорации. С точки зрения стороннего наблюдателя и опытом работы с данными об окружающей среде через одного из своих бывших консультантов он разработал новый подход к прогнозированию того, как сорта сельскохозяйственных культур будут вести себя в полевых условиях.
Его интерес к этой теме привел к недавней публикации исследования, написанного в соавторстве с его научным руководителем Сэмом Фернандесом, доцентом кафедры сельскохозяйственной статистики и количественной генетики Арканзасской сельскохозяйственной экспериментальной станции, исследовательского подразделения Системного отделения сельского хозяйства Университета Арканзаса.
Исследование, опубликованное в журнале Theoretical and Applied Genetics, называется «Использование машинного обучения для объединения генетических и экологических данных для прогнозирования урожайности кукурузы в ходе испытаний в различных средах».
«Игорь пришел из статистики, не имея никакого генетического образования», — сказал Сэм Фернандес. «Итак, у него возникла эта идея, которая совсем не была тем, что мы бы использовали в генетике, и было просто удивительно, что она хорошо сработала».
Модель Игоря Фернандеса, которая была сосредоточена на данных об окружающей среде, привела его к близкому второму месту в международном конкурсе Genome to Fields этого года. Соавторами исследования, которое вытекало из конкурсной заявки, были Кайо Виейра, доцент кафедры селекции сои экспериментальной станции, и Кайо Диас, доцент кафедры общей биологии Федерального университета Висозы в Бразилии.
Окружающая среда и генетика
Хотя конкурсная заявка показала, что данные об окружающей среде сами по себе работают лучше, чем ожидалось, при прогнозировании урожайности, исследователи увидели возможность провести комплексное исследование, сравнивающее новый подход с устоявшимися моделями прогнозирования, используемыми в геномной селекции.
Геномная селекция, процесс отбора тысяч кандидатов для полевых испытаний на основе только ДНК, может сэкономить время и ресурсы, необходимые для разработки нового сорта растений, например, лучшего роста в условиях засухи. Важная часть геномной селекции включает геномное прогнозирование для оценки урожайности растения с использованием его ДНК.
«Допустим, у вас есть тысячи кандидатов, и вы получаете ДНК от всех них», — объясняет Сэм Фернандес. «На основе ДНК и информации из предыдущих полевых испытаний вы можете сказать, какой из них даст наибольший урожай, не высаживая его в поле. Таким образом, вы экономите ресурсы. Это геномное предсказание».
Добавление в модель информации о том, как это растение будет взаимодействовать с условиями окружающей среды, повышает точность геномного прогноза и становится все более распространенным по мере того, как становится доступным больше экологических данных из испытательных центров. Эта практика называется «энвиромика». Тем не менее, нет единого мнения о лучшем подходе машинного обучения для объединения экологических и генетических данных.
«Одним из преимуществ включения информации об окружающей среде в модели является то, что вы можете рассматривать то, что мы называем взаимодействием генотипа и окружающей среды», — сказал Сэм Фернандес. «Поскольку окружающая среда не влияет на всех особей одинаково, мы пытаемся учесть все это, чтобы иметь возможность выбрать лучшую особь. А лучшая особь может быть разной в зависимости от места и сезона».
В исследовании использовались те же данные по кукурузным участкам из Genomes to Fields Initiative, которые использовались в конкурсе, но исследователи скорректировали входные данные как генетические, экологические или их комбинацию «аддитивным» и «мультипликативным» образом. При включении экологических и генетических данных более простым «аддитивным» способом точность прогнозирования была лучше, чем более сложным «мультипликативным» способом.
Более простая модель потребовала меньше времени для обработки компьютером, а средняя точность прогноза улучшилась на 7% по сравнению с установленной моделью . Эксперимент был проверен в трех сценариях, обычно встречающихся в селекции растений.
«Одной из уникальных вещей, которые сделал Игорь, было то, как он обработал данные об окружающей среде», — сказал Сэм Фернандес. «Существуют более замысловатые модели, [в которые] люди могут вводить всевозможную информацию. Но то, что сделал Игорь, — это простой, но эффективный способ объединения генетических и экологических данных с использованием проектирования признаков для обработки информации и получения сводки переменных, которая является более информативной».
В совокупности исследователи говорят, что результаты многообещающие, особенно с учетом растущего интереса к объединению экологических характеристик и генетических данных для целей прогнозирования. Их ближайшая цель — применить это для повышения возможностей скрининга генотипов для полевых испытаний.