Экспериментальная модель искусственного интеллекта Google Gemini 2.0 Flash Thinking достигла впечатляющих результатов в математике, науке и общих тестах производительности.
Согласно данным платформы lmarena.ai, обновлённая версия Gemini улучшила свой результат в Chatbot Arena на 17 баллов с декабря 2024 года, опередив конкурентов, включая GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.
Основные достижения модели:
- Прорыв в сложных задачах, программировании и креативном письме.
- Увеличенное окно контекста до 1 миллиона токенов.
- Улучшение точности процесса мышления в сравнении с финальными ответами.
Недоработки остаются только в области контроля стиля, что влияет на форматирование выходных данных.
Генеральный директор Google DeepMind Демис Хассабис отметил, что успехи модели основаны на более чем десятилетнем опыте работы с системами планирования, начиная с AlphaGo. Совмещение этих подходов с современными моделями показало особенно сильные результаты в математике и науке.
Первая версия Flash 2.0 Thinking, выпущенная в декабре 2024 года, уже продемонстрировала успех благодаря явному процессу рассуждений, который улучшил способности модели к логическим выводам.