В ChatGPT появилась Images 2.0 — новая модель для генерации сложных диаграмм и графиков

В ChatGPT появилась Images 2.0  — новая модель для генерации сложных диаграмм и графиков

Images 2.0 генерирует изображения с иероглифами

Разработчики повысили реалистичность и точность сгенерированных изображений. Так, Images 2.0 может создавать картинки с разрешением до 2K, отображать мелкие элементы вроде текста и иконок, а также соблюдать жёсткие стилистические ограничения.

Особый акцент сделан на мультиязычность. Если раньше модель хорошо работала только с латиницей и английским, то теперь она может генерировать иероглифы и сложные шрифты. Инструмент научился создавать схемы, плакаты и комиксы на японском, корейском, китайском, хинди и бенгальском языках.

Руководитель продуктовой команды Адель Ли ChatGPT Images 2.0 отметила, что Images 2.0 будет полезен для преподавателей и учёных, для которых особенно важно создавать детализированные учебные материалы.

В режиме «размышления» модель создаёт изображение в несколько этапов

Ключевое нововведение — режим «размышления» (thinking), доступный платным пользователям чат-бота. В нём модель тратит больше времени на анализ, ищет в интернете актуальные данные для картинок и генерирует до восьми изображений за один раз. Например, нейросеть может нарисовать страницу комикса или эскиз комнаты с несколькими вариантами дизайна.

Когда пользователь просит изобразить недавно произошедшее событие, которого нет в обучающей выборке, нейросеть ищет подходящие картинки в интернете и использует их как референс.

В компании признают: ошибки возможны — в мелких деталях и сложных схемах

Images 2.0 допускает ошибки в создании схем для объёмных моделей, подчёркивается в пресс-релизе. Так, нейросеть пока некачественно генерирует инструкции по сборке кубика Рубика или оригами.

Кроме того, модель плохо работает с мелкими элементами, вроде песчинок на пляже или крупы. Схемы и диаграммы со множеством стрелок и подписей также требуют исправлений от пользователя. Разработчики подчеркнули, что устранят недочеты в будущих версиях модели.

Контекст

В апреле 2025 года Midjourney выпустила модель V7, которая исправляет ошибки в анатомии человека — в новой версии у людей нормальное количество пальцев и естественные пропорции тела.

Google встроила генератор Nano Banana в Gemini. Пользователи могут создавать картинки прямо в чате, а затем редактировать их голосовыми командами — например, убрать объект или изменить цвет фона. Благодаря этой функции аудитория Gemini выросла с 450 до 650 млн пользователей к октябрю 2025 года.

Meta* в свою очередь разрабатывает модель Mango, которая будет генерировать и изображения, и короткие видеоролики. Релиз намечен на первую половину 2026 года.

*компания Meta признана экстремистской и запрещена на территории РФ

Источник: https://rb.ru/news/v-chatgpt-poyavilas-novaya-model-dlya-generacii-izobrazhenij-images-20-umeet-sozdavat-slozhnye-diagrammy-i-grafiki/