3 миллиарда пар оснований, составляющих геном человека, — соответствующие фрагменты головоломки из пар аденина с тимином и цитозина с гуанином — это не просто инструкция для тела. Перестановки в порядке этих пар оснований являются маркерами происхождения болезней и нашей эволюционной истории. Они могут быть простыми, когда несколько пар оснований меняются местами. Они также могут быть сложными, например, когда участок из десятков тысяч пар оснований инвертируется и теряет несколько участков.
Современные методы считывания генома, называемые секвенированием всего генома, подходят для поиска простых вариаций, но они не справляются с поиском сложных структурных вариаций. Теперь новое исследование под руководством Стэнфордской медицины разработало метод на основе искусственного интеллекта, способный идентифицировать сложные структурные вариации из данных секвенирования всего генома.
Исследование , опубликованное 30 сентября в Cell, создало каталог сложных структурных вариантов с использованием более 4000 человеческих геномов со всего мира. Эти варианты часто встречаются в генах, управляющих мозгом, и были обнаружены в областях генома, связанных с эволюцией человека.
Исследователи также показали, что некоторые из сложных структурных вариантов влияют на то, как инструкции, содержащиеся в генах, связанных с мозгом, считываются в мозге людей, у которых диагностирована шизофрения или биполярное расстройство.
«Эта работа является важным шагом вперед в выяснении генетической и молекулярной основы психических расстройств и предполагает, что заболевания, связанные с мозгом, и общие расстройства, имеющие сильный генетический компонент, должны иметь сложный структурный вариантный анализ», — сказал старший автор исследования Александр Урбан, доктор философии, доцент кафедры психиатрии и поведенческих наук, а также генетики.
«Любая полная последовательность генома должна быть пропущена через этот новый алгоритм; это позволит нам найти важные ответы в данных, которые в настоящее время игнорируются».
Соавторами выступили Урбан и доктор философии Винг Вонг, профессор наук и здоровья человека в Goldman Sachs, профессор статистики и биомедицинских данных.
Геном в широком угле
Почти все вариации, которые были обнаружены в геноме человека до сих пор, являются простыми. Но вывод нового алгоритма показал, что каждый геном также имеет от 80 до 100 сложных структурных вариаций.
«Искать только простые вариации — это как вычитывать рукопись книги и искать исключительно опечатки, которые меняют отдельные буквы», — сказал Урбан. «Вы упускаете из виду слова, которые перепутаны или дублируются, или находятся в неправильном порядке — вы даже можете не заметить, что пропала половина главы. Все эти вещи следует отследить до того, как рукопись будет отправлена в типографию».
Алгоритм Automated Reconstruction of Complex Structural Variants, сокращенно ARC-SV, улавливает все виды перестроек ДНК и имеет точность 95% при поиске сложных структурных вариантов. Алгоритм использует модель ИИ и был обучен на десятках полных человеческих геномов, называемых пангеномами, от людей с разным происхождением.
Алгоритм обнаружил более 8000 различных сложных структурных вариантов, длина которых варьировалась от 200 до 100 000 пар оснований. Многие варианты были расположены в областях генома, которые регулируют развитие и функционирование мозга. Исследователи более подробно рассмотрели, связаны ли эти варианты с психиатрическими заболеваниями .
Генетика и психиатрические заболевания
Возможность легко находить и изучать сложные структурные вариации может помочь объяснить, какие изменения в геноме приводят к психиатрическим заболеваниям, которые являются наследственными. Исследование изучало два таких заболевания: шизофрению и биполярное расстройство. Исследования ассоциаций по всему геному, называемые GWAS, выявили много мест в геноме, которые несут риск диагностирования психиатрического заболевания. Но результаты GWAS не могут объяснить генетический риск с достаточной степенью детализации, чтобы действовать в соответствии с ним.
«Мы достигли поразительного прогресса в выявлении генетических компонентов психиатрических заболеваний, но все еще чего-то важного не хватает», — сказал Урбан. «Результаты GWAS говорят нам, где в геноме находится какое-то изменение ДНК, связанное с расстройством. Но информация от GWAS несколько расплывчата. Это как знать, что где-то на страницах 118, 237 и 304 в книге есть ошибки. Но мы не знаем, какие это ошибки или какие слова в них задействованы».
Урбан объяснил, что, хотя результаты GWAS могут подтолкнуть исследователей к поиску ошибок на странице 118, знание последовательности сложных структурных вариантов подобно выделению желтым маркером фактического предложения из 10 слов на этой странице, в котором одно слово перепутано, а другое продублировано.
«Это именно так», — сказал он.
Исследователи проверили вывод алгоритма ARC-SV. Они использовали последовательности всего генома в сочетании с показателями экспрессии генов из более чем 100 посмертных образцов мозговой ткани здоровых людей и людей, которым поставили диагноз шизофрения или биполярное расстройство, чтобы исследовать, что могут делать сложные структурные вариации.
Варианты, как правило, располагались вблизи или перекрывались с локациями GWAS, которые, как известно, связаны с риском развития шизофрении или биполярного расстройства. Сложные структурные варианты также влияли на то, как экспрессировались близлежащие гены, изменяя считывание инструкций, содержащихся в ДНК, что предполагает, что варианты могут способствовать заболеванию.
«Выявление и изучение сложных структурных вариантов даст нам более глубокое понимание того, как может меняться ДНК, и предоставит молекулярные подсказки, которые позволят составить карту траектории биологической функции, приводящей к заболеванию, а также к лечению заболеваний», — сказал Бо Чжоу, доктор философии, преподаватель психиатрии и поведенческих наук и первый автор исследования.