Эксперименты с высокотемпературной термоядерной плазмой, проведенные в Большом спиральном устройстве (LHD) Национального института термоядерной науки (NIFS), обновили мировой рекорд по объему полученных данных — 0,92 терабайта (ТБ) на эксперимент в феврале 2022 года. с использованием полного спектра современных плазменных диагностических приборов.
Ожидается , что Международный термоядерный экспериментальный реактор (ИТЭР), который в настоящее время строится во Франции в рамках международного сотрудничества семи сторон, будет генерировать примерно 1 ТБ данных за эксперимент в течение 10 лет, а LHD в настоящее время является единственным экспериментом в мире, который производит данные, тесно связанные с ИТЭР.
Продвижение «Открытой науки», в рамках которой крупномасштабные исследовательские данные используются и распространяются среди всего общества, было принято в качестве совместного заявления на встрече G7, состоявшейся в Сендае, Япония, в 2023 году. NIFS начал полноценные усилия по обеспечению открытой науки. установив «Политику открытого доступа» в феврале 2022 года и «Политику исследовательских данных» в октябре 2022 года.
С 2023 года все данные, полученные в ходе экспериментов LHD, становятся общедоступными сразу после завершения сбора и анализа. Все исходные коды вычислительных программ для анализа данных также находятся в открытом доступе.
В открытой науке принцип FAIR рассматривается как важный индикатор. NIFS считает выполнение требований FAIR в отношении диагностических необработанных и анализируемых данных, то есть ценных цифровых активов проекта LHD, важным предложением Платформы академических исследований LHD и продолжает свои усилия.
Хотя данные экспериментов LHD стали одним из крупнейших в мире ресурсов данных и широко используются отечественными и международными исследователями термоядерной плазмы, они редко использовались для других целей, например, в различных областях исследований или в промышленности. Это может быть связано с 1) сложностью поиска интересующих данных из самых разных экспериментальных данных и 2) огромным количеством и огромным размером отдельных данных, что затрудняет простой и быстрый запуск анализа данных.
Ожидается, что для решения этих проблем 1) будет обеспечено всестороннее представление огромных объемов экспериментальных данных с высоты птичьего полета, и 2) среда анализа данных может быть легко подготовлена для мгновенного начала анализа, а вычислительные ресурсы данных при необходимости можно увеличить или уменьшить.
Научные достижения
Данные экспериментов LHD — это крупномасштабный цифровой актив. Чтобы способствовать его использованию исследователями в различных областях, промышленностью и широкой публикой, необходима компьютерная среда, которую может легко использовать каждый. Важная возможность существует в технологии «облачных сервисов».
Облачные сервисы создают среду, в которой можно немедленно начать анализ данных, что позволяет исследователям, представителям промышленности и даже гражданам очень эффективно использовать данные. Теперь NIFS был принят для «Программы спонсорства открытых данных Amazon Web Services (AWS)» и завершил передачу около 2 петабайт данных эксперимента LHD в облачное хранилище AWS, Amazon Simple Storage Service (Amazon S3), для сделать их свободно доступными для всех в Интернете.
Вычислительная среда, способная запускать набор программ анализа данных, также необходима для использования огромных открытых данных. К данным LHD, полностью реплицированным в облачном хранилище AWS, теперь можно получить доступ непосредственно с облачных компьютеров AWS для высокопроизводительного и масштабного анализа данных в любое время.
Большим преимуществом для продвижения открытой науки является также то, что Amazon S3 позволяет нам предоставлять надежную, непрерывную службу передачи данных, независимую от системы NIFS и возможностей сети.
В отличие от других областей исследований, таких как глобальные экологические, метеорологические и астрономические наблюдения, где международный обмен исследовательскими данными происходит уже более нескольких десятилетий, международное сотрудничество или обмен данными в исследованиях и разработках в области термоядерной энергии, особенно в экспериментальном поле.
Это связано с тем, что экспериментальные результаты часто различаются от одного устройства к другому, что затрудняет их простое сравнение и оценку. Открытые данные LHD представляют собой первый крупный шаг в мире на пути к междисциплинарности и универсализации исследований в области термоядерной энергии.
Результаты будут представлены на 14-м техническом совещании МАГАТЭ по системам управления, сбору данных, управлению данными и дистанционному участию в термоядерных исследованиях, которое состоится в Сан-Паулу, Бразилия, 15–19 июля 2024 года.
Значение достижений и будущих событий
База данных диагностических необработанных и проанализированных данных LHD, которая представляет собой крупнейшее в мире хранилище данных исследований в области термоядерной энергии, является очень ценным цифровым исследовательским активом. Ожидается, что, сделав все это открытыми данными в облаке AWS, база данных будет использоваться не только в исследовательских целях в рамках и за пределами термоядерных исследований, но также привлечет участие широкой общественности и новых участников из других стран и отраслей. которые хотят начать новые исследования и разработки в области термоядерной энергии.
Ожидается, что барьеры для первого входа будут значительно снижены. Кроме того, ожидается, что он станет крупной цифровой платформой для обмена исследовательскими знаниями, человеческого обмена и развития не только в Японии, но и в других странах мира. С этой целью NIFS интенсивно продвигает это большое хранилище данных под названием «Облако плазмы и термоядерного синтеза», используя NII RDC, облачную платформу исследовательских данных Национального института информатики.
В будущем, чтобы продвигать принципы открытой науки, мы только начали присваивать глобальный постоянный идентификатор DOI (идентификатор цифрового объекта) примерно 40 миллионам данных LHD, чтобы облегчить их поиск и доступность. Завершение регистрации может занять три-четыре года из-за чрезвычайно большого количества объектов данных.
Однако, когда все данные будут зарегистрированы, ожидается, что это будет самое большое количество общедоступных DOI исследовательских данных в мире, превысив нынешних мировых лидеров, таких как Geoscience Australia (приблизительно 7 миллионов DOI), CERN (около 6,7 миллиона). и Междисциплинарный альянс данных о Земле (IEDA) в США (около 5 миллионов).
Ушио Усами, руководитель международного государственного сектора AWS в Японии, сказал: «Мы очень рады возможности внести свой вклад в использование энергии термоядерного синтеза в сотрудничестве с Национальным институтом термоядерной науки. Я надеюсь, что эти открытые данные будут использованы. используется не только в области академических исследований в Японии, но и в промышленности по всему миру для продвижения технологических инноваций в различных научных областях».
Доктор Кейичи Накано, главный исследователь кибернаучной инфраструктуры Исследовательского центра открытой науки и платформы данных Национального института информатики (NII), а также руководитель программы «Развитие экосистемы исследовательских данных для продвижения науки, основанной на данных» », — сказал: «В этом достижении построенная нами инфраструктура исследовательских данных (NII Research Data Cloud: NII RDC) использовалась как функция для использования огромных объемов данных.
«Мы рады, что НИИ НИЦ смог внести свой вклад в практическую реализацию Открытой науки, которая будет иметь глобальное влияние. Мы надеемся продолжить углублять наше сотрудничество с NIFS и внести свой вклад в развитие глобальной Открытой науки посредством этих исследовательских данных.»