GeoVista запускает open-source AI для геолокации

Исследователи из Китая представили GeoVista — открытую AI-модель для определения местоположения по фото, совмещающую анализ изображения и прямой поиск в интернете. Система создана для конкуренции с коммерческими лидерами, например, Gemini 2.5 Flash.

GeoVista разработана Tencent совместно с китайскими университетами. Модель использует две основные функции: инструмент масштабирования для увеличения деталей и поиск до десяти релевантных источников на платформах вроде Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia. GeoVista сама выбирает, когда использовать каждый инструмент.

По мнению авторов, интеграция поиска делает GeoVista лучше аналогичных методов. Другие модели, такие как Mini-o3 или DeepEyes, ограничены анализом изображения, а GeoVista активно собирает внешние данные. В статье не указано, каким поисковым сервисом пользуется система.

GeoVista построена на Qwen2.5-VL-7B-Instruct и обучалась в два этапа. Сначала на 2 000 примерах модель училась базовым инструментам и логике. Примеры и пояснения для обучения собирались с помощью коммерческих AI-моделей, чтобы формировать многоуровневое мышление.

Далее применялось обучение с подкреплением на 12 000 примерах. Для оценки сделали награды по географической точности: правильный город ценится выше, чем просто страна или регион.

На собственном датасете GeoBench GeoVista показала 92,64% точности на уровне страны, 79,60% — на уровне региона и 72,68% — на уровне города. Лучшая точность достигается на панорамах (79,49% городского уровня) и обычных снимках (72,27%), минимальная — на спутниковых фото (44,92%).

Для сравнения: Gemini 2.5 Pro показал 78,98% на уровне города, GPT-5 — 67,11%, Gemini 2.5 Flash — 73,29%. Остальные открытые модели сильно отстают: Mini-o3-7B — 11,3%. Новая модель Gemini 3 может изменить результаты в будущем.

Для измерения расстояния 52,83% предсказаний GeoVista попадали в радиус 3 км от реального места, медианное отклонение — 2,35 км. У Gemini 2.5 Pro — 64,45% в радиусе 800 м, у GPT-5 — 55,12% с медианой в 1,86 км.

Тесты показали: обе фазы обучения необходимы. Без первого этапа модель давала короткие ответы и не использовала инструменты, без второго — результаты также падали. Система наград оказалось важна для точности по нескольким уровням.

Замечено, что ошибки в использовании инструментов снизились во втором этапе даже без прямой настройки. Рост объёма данных (от 1500 до 12 000 примеров) давал предсказуемый прирост точности.

Вместе с моделью опубликован датасет GeoBench — 1 142 фото высокого разрешения из 66 стран и 108 городов. Там есть 512 обычных фото, 512 панорам и 108 спутниковых снимков. Разрешение всех изображений — не менее миллиона пикселей.

GeoBench отличается более жёсткой фильтрацией: удалялись снимки еды, неперсонализированные пейзажи и узнаваемые достопримечательности. Исследователи считают, что картинки в интернете сильно различаются по сложности гео-определения.

Эталон оценивает точность поэтапно: отдельно на уровне страны, региона и города, а также по точному расстоянию (через перевод текста адреса в координаты).

Исходники, веса модели и тестовый набор доступны на странице проекта. Авторы не обсуждали возможное злоупотребление, но теперь любая опубликованная фотография может быть точно локализована с помощью AI.

Источник

Оцените статью
Gimal-Ai