Исследователи представили Evo 2 — крупнейшую на сегодня нейросеть для изучения биологии. Она способна генерировать целые хромосомы и анализировать сложные генетические вариации у разных организмов.
Модель обучена на массиве данных в 9,3 трлн пар оснований ДНК из более чем 100 000 видов бактерий, архей и эукариот. Разработкой занимались Arc Institute, Стэнфорд, UC Berkeley, UC San Francisco и Nvidia. Такой объем данных позволил Evo 2 предсказывать и проектировать биологические последовательности от молекул до геномов.
Нейросеть представлена в двух версиях: на 7 и 40 млрд параметров. Обе могут анализировать контексты длиной до 1 млн пар оснований. Evo 2 определяет влияние мутаций исключительно по последовательности ДНК, без дополнительного обучения.
Модель умеет генерировать сложные структуры
Тесты показали, что Evo 2 воспроизводит митохондриальные, прокариотические и эукариотические геномы, соответствующие естественным по длине и сложности. При анализе мутаций в гене BRCA1 (ассоциированном с раком груди) модель почти достигла точности лучших существующих ИИ.
Одним из ключевых достижений стало управление упаковкой ДНК (доступностью хроматина). Evo 2 может проектировать ДНК с заданными эпигенетическими свойствами, что критично для регуляции активности генов.
Открытый доступ для ускорения исследований
Исследователи полностью открыли код Evo 2 — доступны параметры модели, данные обучения и код работы. Это делает ее одной из крупнейших открытых моделей в биоинформатике.
В отличие от Evo 1, который работал только с прокариотами, новая версия охватывает все домены жизни, обучена на 30 раз большем массиве данных и использует новую архитектуру StripedHyena 2.
Некоторые эксперты сомневаются, что модель полностью понимает некодирующие последовательности, регулирующие активность генов. Кроме того, пока генерируемые геномы не могут функционировать в живых клетках.
Для безопасности из обучения исключены патогены сложных организмов, включая человека. Разработчики также предусмотрели защиту от использования модели для создания вредоносных организмов.