Google Gemini 2.0 Flash Thinking опережает конкурентов в Chatbot Arena

Gemini

Экспериментальная модель искусственного интеллекта Google Gemini 2.0 Flash Thinking достигла впечатляющих результатов в математике, науке и общих тестах производительности.

Согласно данным платформы lmarena.ai, обновлённая версия Gemini улучшила свой результат в Chatbot Arena на 17 баллов с декабря 2024 года, опередив конкурентов, включая GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

Основные достижения модели:

  • Прорыв в сложных задачах, программировании и креативном письме.
  • Увеличенное окно контекста до 1 миллиона токенов.
  • Улучшение точности процесса мышления в сравнении с финальными ответами.

Недоработки остаются только в области контроля стиля, что влияет на форматирование выходных данных.

Генеральный директор Google DeepMind Демис Хассабис отметил, что успехи модели основаны на более чем десятилетнем опыте работы с системами планирования, начиная с AlphaGo. Совмещение этих подходов с современными моделями показало особенно сильные результаты в математике и науке.

Первая версия Flash 2.0 Thinking, выпущенная в декабре 2024 года, уже продемонстрировала успех благодаря явному процессу рассуждений, который улучшил способности модели к логическим выводам.

Источник

Оцените статью
Gimal-Ai