Электронная криотомография (крио-ЭТ) становится мощной техникой для получения подробных трехмерных изображений клеточной среды и замкнутых биомолекул. Однако одной из задач методологии является идентификация белковых молекул на изображениях для дальнейшей обработки.
Исследовательская группа под руководством Стефана Раунсера, директора MPI молекулярной физиологии в Дортмунде, под руководством Торстена Вагнера, разработала программное обеспечение для выделения белков в переполненных клеточных объемах. Новый инструмент с открытым исходным кодом под названием TomoTwin основан на глубоком метрическом обучении и позволяет ученым находить несколько белков с высокой точностью и пропускной способностью без ручного создания или переобучения сети каждый раз.
Статья опубликована в журнале Nature Methods.
«TomoTwin прокладывает путь к автоматизированной идентификации и локализации белков непосредственно в их клеточном окружении, расширяя потенциал крио-ЭТ», — говорит Гэвин Райс, соавтор публикации. Cryo-ET может расшифровать, как биомолекулы работают внутри клетки, и тем самым раскрыть основы жизни и происхождение болезней.
В эксперименте по крио-ЭТ ученые используют просвечивающую электронную микроскопию для получения трехмерных изображений, называемых томограммами, клеточного объема, содержащего сложные биомолекулы. Чтобы получить более детальное изображение каждого отдельного белка , они усредняют как можно больше их копий — подобно фотографам, делающим одну и ту же фотографию с разной экспозицией, чтобы позже объединить их в изображение с идеальной экспозицией. Важно правильно идентифицировать и расположить различные белки на картинке, прежде чем усреднять их. «Ученые могут делать сотни томограмм в день, но нам не хватало инструментов для полной идентификации молекул внутри них», — говорит Райс.
До сих пор исследователи использовали алгоритмы, основанные на шаблонах уже известных молекулярных структур, для поиска совпадений на томограммах, но они, как правило, подвержены ошибкам. Идентификация молекул вручную — это еще один вариант, который обеспечивает высококачественный отбор, но занимает от нескольких дней до нескольких недель для каждого набора данных.
Другой возможностью было бы использование формы контролируемого машинного обучения . Эти инструменты могут быть очень точными, но в настоящее время им не хватает удобства использования, поскольку они требуют ручной маркировки тысяч примеров для обучения программного обеспечения каждому новому белку, что является почти невыполнимой задачей для небольших биологических молекул в переполненной клеточной среде .
ТомоТвин
Недавно разработанное программное обеспечение TomoTwin преодолевает многие из этих препятствий: оно учится выбирать молекулы , похожие по форме, на томограмме и сопоставляет их с геометрическим пространством — система вознаграждается за размещение похожих белков рядом друг с другом и наказывается в противном случае. На новой карте исследователи могут изолировать и точно идентифицировать различные белки и использовать их для определения их местонахождения внутри клетки.
«Одним из преимуществ TomoTwin является то, что мы предоставляем предварительно обученную модель комплектования», — говорит Райс. Убрав этап обучения, программа может работать даже на локальных компьютерах — там, где обработка томограммы обычно занимает 60–90 минут, время работы на суперкомпьютере MPI Raven сокращается до 15 минут на томограмму.
TomoTwin позволяет исследователям выбирать десятки томограмм за то время, которое требуется для ручного выбора одной, тем самым увеличивая пропускную способность данных и скорость усреднения для получения более качественного изображения. В настоящее время программное обеспечение может обнаруживать глобулярные белки или белковые комплексы размером более 150 килодальтон в клетках; в будущем группа Раунсера стремится включить мембранные белки , нитевидные белки и белки меньших размеров.