Ученые продемонстрировали улучшение эффективности процесса хранение информации в ДНК

Исследователи из Техниона — Израильского технологического института в Хайфе и Междисциплинарного центра (МЦЦ) в Герцлии продемонстрировали значительное улучшение эффективности процесса, необходимого для хранения цифровой информации в ДНК.

В статье, опубликованной в Nature Biotechnology , группа продемонстрировала хранение информации с плотностью более 10 петабайт (10 миллионов гигабайт) в одном грамме ДНК, значительно улучшив при этом процесс записи. Теоретически такая плотность позволяет хранить всю информацию, хранящуюся на YouTube, в объеме одной чайной ложки.

Исследование было проведено студентом Леоном Анави, студентом факультета компьютерных наук Техниона, под руководством профессора Зохара Яхини из факультета компьютерных наук Техниона и Школы компьютерных наук им. Эфи Арази в Междисциплинарном центре Герцлии. Он проводился в сотрудничестве с Лабораторией синтетической биологии профессора Роуи Амит на Технионском факультете биотехнологии и пищевой инженерии.

Количество цифровой информациидоступность для человечества росла с огромной скоростью с тех пор, как IBM изобрела жесткий диск в 1950-х годах. Хранение этой информации стало серьезной проблемой не только в технологическом контексте, но и с точки зрения экономических и экологических аспектов, поскольку серверные фермы — информационные хранилища, которые обслуживают нас всех — в настоящее время ответственны за около 2 процентов глобальных выбросов углерода, аналогичный показатель к совокупной эмиссии глобального воздушного движения, и для приблизительно 3 процентов мирового потребления электроэнергии, больше, чем потребление электроэнергии всей Великобритании. На этом фоне за последнее десятилетие был разработан новый технологический подход: хранение информации в ДНК. Эта технология обеспечивает значительную минимизацию, более длительное (тысячекратное) хранение информации, а также нулевые энергозатраты и экономические затраты на обслуживание.

Основная идея кодирования информации о ДНК заключается в том, что молекула ДНК представляет собой цепь, состоящую из звеньев, называемых нуклеотидами. Нуклеотиды делятся на четыре типа, помеченные буквами A, C, G и T. Для хранения информации о ДНК каждая двоичная последовательность (состоящая из символов 0 и 1) должна быть переведена в последовательность, состоящую из этих букв. На следующем этапе, в процессе, называемом синтезом, производятся фактические молекулы ДНК, представляющие эти же последовательности. Чтобы прочитать данные, эти молекулы ДНК секвенированы. Секвенирование ДНК дает выход, который представляет нуклеотидную последовательность, которая составляет каждую молекулу на входе. Этот вывод затем переводится в двоичную последовательность, которая представляет исходное сообщение, которое было закодировано. Современные технологии поддерживают синтез многих тысяч различных нуклеотидных рядов параллельно.

Хранение информации о ДНК — очень сложная технологическая задача. В области чтения информации (секвенирования) произошел огромный прогресс, вызванный революцией в геноме; однако для написания информации все еще существуют значительные технологические трудности и затраты более высоки. В этом важность прорыва исследователей. Это позволяет: (1) увеличить количество букв, используемых для кодирования информации (помимо первоначальных 4 букв); (2) значительно сократить количество раундов синтеза, необходимых для хранения информации о ДНК; (3) улучшение используемого механизма исправления ошибок.

Исследователи из Техниона и IDC Герцлии увеличили эффективное количество букв за пределами четырех строительных блоков в естественной ДНК, используя новые буквы, которые являются уникальными комбинациями исходных букв. Идея аналогична формированию новых цветов с использованием смесей базовых цветов. Увеличение количества букв позволяет кодировать больше информации в каждой букве в последовательности.

По словам профессора Яхини, «нынешние процессы синтеза и секвенирования по своей природе избыточны, потому что каждая молекула производится в большом количестве1 и читается в нескольких копиях во время секвенирования. Разработанный нами метод использует эту избыточность, чтобы значительно увеличить эффективное количество букв оригинальные четыре буквы, что позволяет нам кодировать и записывать каждую единицу информации за меньшее количество циклов синтеза «.

Команда продемонстрировала сокращение количества раундов синтеза, требуемых на единицу информации, на 20 процентов. Они также показали, что количество раундов синтеза может быть уменьшено в будущем на 75 процентов без значительных усилий по развитию. Это означает, что процесс хранения будет быстрее и дешевле.

«В этой работе мы внедрили систему хранения на основе ДНК, которая кодирует информацию с эффективностью синтеза, которая значительно лучше стандартного подхода», — пояснил профессор Амит. «Исследование включало в себя фактическую реализацию новой методики кодирования для хранения большого объема информации о молекулах ДНК и реконструкции ее для тестирования процесса».

Фактически, на одной из полок в лаборатории профессора Амита в Технионе находится небольшая пробирка, содержащая около 10 нанограммов (миллиардных долей грамма) ДНК, кодирующих тысячи копий двуязычной версии Библии.

Исследовательская группа разработала усовершенствованные механизмы исправления ошибок для преодоления ошибок, которые являются неотъемлемой частью биофизических процессов, таких как тот, который используется здесь. Часть последовательности ДНК молекул, в которых хранится информация, разработанная Леоном Анави и профессором Яхини, используется для исправления ошибок.

По словам Леона Анави, «благодаря использованию кодов исправления ошибок, адаптированных к уникальной кодировке, которую мы создали, мы смогли выполнить высокоэффективное кодирование и успешно восстановить информацию. При работе в системе, состоящей из миллионов частей (молекулы), даже события один на миллион происходят, что может нарушить чтение. Тщательное кодирование позволило нам преодолеть эти проблемы ».

По словам исследователей, «технология, которую мы представили в статье, может оптимизировать дальнейшие процессы в синтетической биологии и биотехнологии. Мы считаем, что в ближайшие годы мы увидим значительное увеличение использования синтетической ДНК в исследованиях и промышленности «.

Синтетическая ДНК, использованная исследователями и разработанная группой, была произведена Twist Bioscience, калифорнийской компанией, которая также имеет офисы в Тель-Авиве. Секвенирование было выполнено в Центре генома Техниона. Исследование было частично поддержано Рамочной программой исследований и инноваций Горизонта 2020 Европейской комиссии. Леон Анави является стипендиатом программы стипендий ADAMS Израильской академии наук. Доктор Орна Атар и студент-исследователь Инбал Вакнин также были вовлечены в исследование.