Mistral AI представила Saba — языковую модель, которая учитывает культурные и языковые нюансы Ближнего Востока и Юго-Восточной Азии. В отличие от универсальных моделей, Saba ориентирована на понимание тонких особенностей местных языков и культурных контекстов.
Модель содержит 24 миллиарда параметров, что меньше, чем у многих конкурентов, но, по заявлениям Mistral AI, обеспечивает высокую точность и скорость при меньших затратах. Это достигается благодаря архитектуре, схожей с Mistral Small 3. Saba работает со скоростью более 150 токенов в секунду даже на одном GPU, что делает её доступной для менее мощных систем.
Saba особенно хорошо работает с арабским и индийскими языками, включая тамильский и малаялам, что делает её актуальной для использования в межкультурных коммуникациях в этих регионах. Модель уже применяется в реальных проектах, включая арабоязычных виртуальных помощников, а также специализированные инструменты для энергетики, финансов и здравоохранения.
Доступ к Saba возможен через платное API или локальное развертывание на инфраструктуре Mistral. Как и другие модели компании, Saba не является open source, а детали её разработки остаются закрытыми.
Помимо Mistral AI, над аналогичными проектами работают и другие компании:
- OpenGPT-X представила Teuken-7B с 50% данных не на английском языке.
- OpenAI разработала японскую версию GPT-4.
- EuroLingua сосредоточена на европейских языках.
- Laion создала LeoLM для немецкого языка.
Модели ИИ обучаются на обширных текстовых наборах данных, выявляя статистические связи между словами и предложениями. Однако большинство моделей, таких как GPT-3 с 93% данных на английском, упускают культурные нюансы, которые важны для носителей языка. Saba стремится восполнить этот пробел, но при этом базовые возможности модели часто оказываются важнее, чем тонкая настройка под конкретные языки.