DeepMind обновила свою систему AlphaGeometry, и теперь она решает задачи по геометрии лучше, чем большинство экспертов. AlphaGeometry2 справилась с 84% задач Международной математической олимпиады (IMO) с 2000 по 2024 год, тогда как предыдущая версия решала лишь 54%. На тесте IMO-AG-50 из 50 задач она нашла решения для 42 – это больше, чем у среднестатистического золотого призёра олимпиады, который обычно решает около 40.
Как работает AlphaGeometry2
Система объединяет два ключевых компонента: языковую модель на архитектуре Gemini и символьный движок DDAR (Deductive Database Arithmetic Reasoning).
- Языковая модель обучена на синтетических задачах по геометрии. Она предлагает возможные шаги решения, описывая объекты и их взаимосвязи.
- DDAR проверяет предложения, используя логические правила, и строит «замыкание доказательств» – все возможные выводы, которые можно сделать на основе исходных данных.
Для поиска решений используется алгоритм SKEST (Shared Knowledge Ensemble of Search Trees). Он позволяет моделям параллельно работать над разными подходами к решению и обмениваться полезной информацией. В результате AlphaGeometry2 находит доказательства быстрее и точнее.
По сравнению с первой версией, AlphaGeometry2 получила несколько улучшений:
- Более выразительный язык геометрического описания, включающий локусные кривые и линейные уравнения.
- Ускоренный символьный движок – теперь он работает на C++, что делает его в 300 раз быстрее по сравнению с Python-версией.
Любопытно, что ни способ токенизации, ни язык разметки задач не оказали решающего влияния на эффективность модели. Даже обучение на естественном языке дало такие же результаты, как и обучение на формальном языке геометрии.
Будущее ИИ в математике
AlphaGeometry2 показала, что языковые модели могут не только находить вспомогательные конструкции, но и полностью доказывать теоремы. Это ставит под вопрос необходимость использования символьных движков – возможно, будущие версии будут полагаться исключительно на ИИ.
Тем не менее, система пока не умеет работать с задачами, в которых число точек изменяется, присутствуют нелинейные уравнения или неравенства. Также остаются нерешённые задачи IMO, но улучшения возможны – например, через разделение сложных проблем на подзадачи или применение обучения с подкреплением.
Разработки DeepMind в области ИИ уже принесли прорывы в таких сферах, как игра в го (AlphaGo), предсказание структуры белков (AlphaFold) и умножение матриц (AlphaTensor). Теперь компания нацелилась на революцию в математике.