Исследователи из Китая представили GeoVista — открытую AI-модель для определения местоположения по фото, совмещающую анализ изображения и прямой поиск в интернете. Система создана для конкуренции с коммерческими лидерами, например, Gemini 2.5 Flash.
GeoVista разработана Tencent совместно с китайскими университетами. Модель использует две основные функции: инструмент масштабирования для увеличения деталей и поиск до десяти релевантных источников на платформах вроде Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia. GeoVista сама выбирает, когда использовать каждый инструмент.
По мнению авторов, интеграция поиска делает GeoVista лучше аналогичных методов. Другие модели, такие как Mini-o3 или DeepEyes, ограничены анализом изображения, а GeoVista активно собирает внешние данные. В статье не указано, каким поисковым сервисом пользуется система.
GeoVista построена на Qwen2.5-VL-7B-Instruct и обучалась в два этапа. Сначала на 2 000 примерах модель училась базовым инструментам и логике. Примеры и пояснения для обучения собирались с помощью коммерческих AI-моделей, чтобы формировать многоуровневое мышление.
Далее применялось обучение с подкреплением на 12 000 примерах. Для оценки сделали награды по географической точности: правильный город ценится выше, чем просто страна или регион.
На собственном датасете GeoBench GeoVista показала 92,64% точности на уровне страны, 79,60% — на уровне региона и 72,68% — на уровне города. Лучшая точность достигается на панорамах (79,49% городского уровня) и обычных снимках (72,27%), минимальная — на спутниковых фото (44,92%).
Для сравнения: Gemini 2.5 Pro показал 78,98% на уровне города, GPT-5 — 67,11%, Gemini 2.5 Flash — 73,29%. Остальные открытые модели сильно отстают: Mini-o3-7B — 11,3%. Новая модель Gemini 3 может изменить результаты в будущем.
Для измерения расстояния 52,83% предсказаний GeoVista попадали в радиус 3 км от реального места, медианное отклонение — 2,35 км. У Gemini 2.5 Pro — 64,45% в радиусе 800 м, у GPT-5 — 55,12% с медианой в 1,86 км.
Тесты показали: обе фазы обучения необходимы. Без первого этапа модель давала короткие ответы и не использовала инструменты, без второго — результаты также падали. Система наград оказалось важна для точности по нескольким уровням.
Замечено, что ошибки в использовании инструментов снизились во втором этапе даже без прямой настройки. Рост объёма данных (от 1500 до 12 000 примеров) давал предсказуемый прирост точности.
Вместе с моделью опубликован датасет GeoBench — 1 142 фото высокого разрешения из 66 стран и 108 городов. Там есть 512 обычных фото, 512 панорам и 108 спутниковых снимков. Разрешение всех изображений — не менее миллиона пикселей.
GeoBench отличается более жёсткой фильтрацией: удалялись снимки еды, неперсонализированные пейзажи и узнаваемые достопримечательности. Исследователи считают, что картинки в интернете сильно различаются по сложности гео-определения.
Эталон оценивает точность поэтапно: отдельно на уровне страны, региона и города, а также по точному расстоянию (через перевод текста адреса в координаты).
Исходники, веса модели и тестовый набор доступны на странице проекта. Авторы не обсуждали возможное злоупотребление, но теперь любая опубликованная фотография может быть точно локализована с помощью AI.






















