Google Deepmind представила два исследования о том, как модель Gemini Deep Think помогает решать реальные научные задачи. Ключевой системой в этих работах стала Aletheia — цифровой ассистент для математиков на базе новой версии Gemini Deep Think. Второе исследование описывает примеры в физике, информатике и экономике. Похожую работу ранее публиковала OpenAI.
В числе наиболее ярких результатов — математическая статья, полностью написанная ИИ, совместные доказательства с участием людей, опровержение десятилетней гипотезы и обнаружение критической ошибки в криптографической работе. При этом масштабная проверка на 700 открытых задачах показывает ограничения подхода: полезными оказались только 6,5 процента ответов модели.
Согласно описанию, Aletheia использует циклическую схему: один компонент предлагает решение, второй проверяет его на ошибки, третий дорабатывает слабые места. Цикл повторяется, пока проверяющий не примет решение или не будет исчерпано число попыток. Важная особенность — система способна честно признать, что не может решить задачу, что экономит время исследователей.
Математические исследования требуют глубокого знания литературы, а языковые модели часто придумывают источники. Для снижения подобных ошибок Aletheia использует Google Поиск и веб-браузинг для проверки ссылок. Это почти устранило вымышленные книги и авторов, но проблема сместилась: модель чаще ссылается на реальные статьи, искажая их содержание. Недавно об этом же сигнализировал бенчмарк Halluhard.
На наборе из 30 сложных задач уровня международных математических олимпиад Aletheia достигла точности 95,1 процента, тогда как предыдущая версия в июле 2025 года показывала 65,7 процента. Однако для более сложных задач уровня PhD система смогла выдать решения менее чем для 60 процентов заданий.
Авторы описывают несколько кейсов с разной ролью ИИ. В одной работе по специальной задаче в арифметической геометрии весь математический материал, по словам исследователей, был создан Aletheia. Система использовала методы из раздела математики, с которым люди-авторы крупного проекта были вовсе не знакомы.
Во второй статье роли распределились иначе: Aletheia предложила общую стратегию доказательства, а люди проработали технические детали. Исследователи отмечают, что это необычно: ИИ чаще привлекают к рутинным частям, а не к выбору подхода на концептуальном уровне.
При этом окончательные версии всех статей писали люди. Авторы подчеркивают: тот, кто подписывает математическую работу, берет на себя ответственность за весь ее контент и корректность ссылок, а сделать это может только человек.
Наиболее показательная часть первой работы — эксперимент с 700 открытыми задачами Пала Эрдёша из онлайн-базы. С 2 по 9 декабря 2025 года команда запустила Aletheia на все задачи, помеченные как нерешенные. Часть этих задач позже была решена с помощью ИИ, включая GPT-5 от OpenAI.
Результаты выглядят так: из 200 ответов, которые можно было однозначно оценить, 137 (68,5 процента) оказались принципиально неверными. Оставшиеся 63 (31,5 процента) были математически корректны, но только 13 (6,5 процента) действительно отвечали на поставленный вопрос. Еще 50 решений были «математически пустыми»: модель изменила формулировку задачи так, что ответ стал тривиальным.
Исследователи называют это примером «specification gaming»: ИИ стремится упростить задачу за счет переосмысления условия, причем так, что человеку-эксперту подмена была бы очевидна.
Второе исследование Deepmind описывает совместную работу с экспертами в информатике, физике и экономике по 18 проектам. Оно опирается на более ранние эксперименты, где Gemini Deep Think использовали как автоматического рецензента заявок на конференции по теоретической информатике.
Сильной стороной модели ученые считают способность связывать далекие друг от друга направления. В одной задаче по оптимизации в сетях модель привлекла инструменты геометрического функционального анализа — раздела математики, к которому специалисты по алгоритмам обычно не обращаются. В проблеме о гравитационном излучении космических струн система предложила шесть разных подходов к решению.
Показательный эксперимент провел ученый в области информатики Лэнс Фортнау. Он использовал текстовый редактор с интегрированным ИИ, чтобы написать полную исследовательскую работу: ему потребовалось всего восемь запросов. Модель сама нашла доказательство основного результата, но ошиблась в следствии, приняв за доказанный факт утверждение, которое на самом деле остается открытой проблемой. После короткой подсказки система быстро скорректировала доказательство.
Фортнау признался, что чувствовал себя неловко, словно списал, и сравнил это с первым опытом использования LaTeX, когда статья выглядела гораздо лучше, чем, по его мнению, заслуживала.
Еще один пример касается гипотезы 2015 года об одной задаче оптимизации, над которой эксперты безуспешно работали около десяти лет. Модель опровергла ее за один прогон, построив простой контрпример на трех элементах, который показал ошибочность интуитивного утверждения.
В криптографии система нашла серьезную ошибку в свежем препринте, где заявлялся важный прорыв. Различие между теоретическим определением и реальной технической реализацией было настолько тонким, что рецензенты на этапе предварительной экспертизы его не заметили. Независимые специалисты подтвердили выводы ИИ, авторы обновили статью.
На основе этих кейсов во втором исследовании формулируются практические рекомендации для ученых. Главный тезис: к модели стоит относиться как к способному, но ошибающемуся младшему исследователю, а не как к безошибочному источнику истины.
Авторы советуют разбивать крупные задачи на небольшие проверяемые подзадачи, а не давать системе сразу целую открытую проблему. Если модель ошибается, конкретная подсказка по поводу ошибки часто приводит к корректному, а иногда и более изящному решению в следующей попытке.
Особенно эффективным оказался подход «сбалансированных запросов»: вместо требования «докажи гипотезу» лучше просить «представь доказательство или опровержение». Это ослабляет тенденцию модели любой ценой поддерживать формулировку из запроса.
Для известных открытых проблем есть отдельный прием. Иногда модель отказывается даже пытаться решать задачу, если распознает ее как нерешенную. В таких случаях помогает удалить контекст и ввести только формулировку, без упоминания статуса. Исследователи называют это «обезличиванием контекста». Подача релевантных статей непосредственно в качестве контекста тоже работает: в этом случае модель строит заметно более сильные доказательства.
Для задач, где символические выкладки можно проверить численно, авторы рекомендуют «нейро-символьный цикл»: ИИ предлагает математическое решение, пишет собственную программу для численной проверки, а если вычисления не проходят, сообщения об ошибках автоматически возвращаются модели. Это позволяет ей самостоятельно отсекать неверные пути. В задаче о космическом излучении такой цикл избавил исследователей более чем от 80 процентов из ~600 кандидатов на решение еще на раннем этапе.
Чтобы снизить ажиотаж вокруг математических результатов с участием ИИ, авторы предлагают ввести стандартную систему оценки. Каждое достижение предлагается описывать по двум осям: степень участия ИИ (преимущественно человек, совместная работа или почти полная автономия) и научная значимость (от «незначительный вклад» до «прорыв на поколение»).
Собственные результаты исследователи оценивают сдержанно. Решенные задачи Эрдёша, хотя и числились открытыми десятилетиями, с точки зрения математики довольно просты. Автономная статья об «eigenweights» считается пригодной к публикации, но относится к широкой категории обычных журнальных работ. Авторы прямо заявляют, что не претендуют на достижения уровня «крупный прогресс» или «рубежный прорыв».
Также предлагается внедрить «карты взаимодействия человека и ИИ», где фиксируются ключевые запросы и ответы модели, сыгравшие решающую роль в результатах. Один из самых известных математиков, Терренс Тао, уже создал общественный вики-ресурс для публичного отслеживания прогресса ИИ в задачах Эрдёша.
Исследователи подчеркивают, что ИИ пока не способен стабильно решать задачи уровня исследовательской математики. Текущие успехи больше связаны с огромным охватом знаний и техническими приемами, чем с настоящей математической креативностью. Ошибочные рассуждения модель часто выдает с высокой уверенностью, что усложняет совместную работу.
Во второй статье также поднимается риск кризиса рецензирования: если ИИ сильно ускорит производство сложных научных текстов, узким местом станет уже не генерация идей, а их проверка. Традиционные процедуры peer review к этому не приспособлены.
Тем не менее авторы обеих работ рассматривают Gemini Deep Think как множитель эффективности человеческих исследований. Модель может взять на себя поиск информации и рутинные проверки, освобождая ученых для содержательной работы. Успех такого разделения обязанностей будет зависеть от того, насколько хорошо люди научатся проверять выводы ИИ.
Источник: материалы Google Deepmind, публикация The Decoder.






















