OpenAI представила возможность создавать изображения напрямую в ChatGPT вместо предыдущей интеграции с DALL-E. Новая система обещает более стабильные результаты и меньше ограничений на контент.
Функция генерации изображений запускается после объявления GPT-4o в мае 2024 года. Она станет стандартной для всех пользователей ChatGPT — от бесплатных до корпоративных клиентов. API для разработчиков будет доступен в ближайшие недели, а DALL-E остается отдельной опцией через специальный GPT.
Система обрабатывает текст и изображения вместе, обеспечивая более точные результаты. Она может одновременно обрабатывать до 20 объектов, поддерживая правильные отношения между ними. Это делает ее особенно эффективной для создания инфографики или логотипов.
Модель демонстрирует силу в нестандартных запросах, таких как “лошадь едет на астронавте”. GPT-4o успешно создает эту концепцию, показывая понимание пространственных отношений.
Система поддерживает “обучение в контексте”, анализируя загруженные изображения и включая их детали в новые генерации. Пользователи могут улучшать свои результаты через диалог, причем ИИ сохраняет контекст в нескольких обменах.
Ранние тесты показывают, что система более стабильна, чем DALL-E 3, хотя все еще не идеальна. Могут наблюдаться небольшие изменения в стиле или деталях одежды персонажей.
OpenAI признает ограничения модели, включая некорректное кадрирование и ошибки при обработке многих объектов. Также возникают трудности с некорректным отображением нелатинских текстов.
На все изображения добавляется метаданные C2PA для идентификации их как созданных ИИ. Внутренняя поисковая система отслеживает и идентифицирует такие изображения.
Система позволяет больше свободы в творчестве, включая потенциально оскорбительный контент “в пределах разумного”. При этом платформа блокирует запросы на дипфейки, насилие и недозволенные изображения настоящих людей.
Эта функция появилась вскоре после аналогичного обновления Google для модели Gemini, что также подчеркнуло преимущества, такие как постоянство изображений и точная передача текста.
Хотя такие генераторы, как Midjourney или Ideogram, до сих пор предлагают удобные интерфейсы для создания изображений, они могут уступать в точности встроенным мультимодальным моделям, например, новому функционалу ChatGPT.