Мультимодальная генерация в ChatGPT: плюсы и минусы новинок

Мультимодальная генерация в ChatGPT: Как круто, так и не очень!

Ну что, наконец-то случилось то, о чем все мы мечтали и обсуждали еще в прошлом году: нативная генерация картинок в ChatGPT 4o! И чтобы добавить сверкания к этому событию, на стрим к нам заглянул сам Сэм Альтман — ну, разве это не повод поднять бокал за инновации?

Но давайте разберемся по порядку. Мы имеем дело с мультимодальной генерацией, которая, несомненно, вызвала у многих восторг своим анонсом еще в Gemini Flash 2.0. И, что приятно, на этот раз все стало значительно лучше. Но не спешите раскатывать ковры и дружно аплодировать — первое впечатление может немного обмануть.

Качество новых генераций все еще вызывает вопросы. Я быстро протестировал обновления, и, как ни печально, фотореализм пока останется на уровне мечты. Это было ожидаемо, ведь LLM (large language models) всё еще не могут соперничать с чисто диффузионными моделями, которые до сих пор показывают более высокое качество изображений.

На стриме, кстати, не показывали ни одной картинки в реалистичном стиле. Все иллюстрации были больше в направлении стилизованного, художественного исполнения. Может, организаторы просто хотели создать настроение, а не смущать нас реальными портретами? В конце концов, кому нужно чернобелое уныние, когда можно разнообразить мир абстракциями и красочным перечислением аксессуаров на картинках?

Можно, конечно, попробовать выдавить из модели что-то более фотореалистичное через интересные инструменты вроде Flux. Или же использовать диффузионный апскейлер, чтобы вытянуть детали и сделать картинку более знатной. Но, честно говоря, это будет уже не то пальто. Мы ведь не ищем легких путей, верно?

И знаете, эта ситуация кажется мне трендом последних месяцев: кто-то выпускает интересную функцию, которую OpenAI давно анонсировало, и все бегут с бахилами за обновлениями. Приходит Сэм с новыми идеями и всех накрывает своим шармом (или, в некоторых случаях, нет — зависит от настроения). Это немного напоминает соревнования по боксу: кто-то анонсирует свою очередь, но остальным остается лишь наблюдать, как они бьют кулаками по воздуху.

Так что, если вас интересует, чем живет мир мультимодальной генерации, — обязательно посмотрите записи стримов и блогов от OpenAI. Это, безусловно, поможет вам составить более полное представление о том, куда движется эта шальная техника.

Не забудьте заглянуть на @ai_newz, чтобы быть в курсе всех новинок. В конце концов, в мире инноваций всегда найдется место для свежих идей!

Мультимодальная генерация в ChatGPT: что нового? ver 0
Скачать

Теги.: мультимодальная генерация ChatGPT искусственный интеллект новые технологии машинное обучение

58 2 месяца назад

Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!

Максим

Предыдущая статья

Проверка слуха: важность для мужчин!

Следующая статья

Прогресс на волне лени: робот-стрелок жевательной резинки!

Нейродайджест за неделю (#68): Майские праздники с LLM! LLM - Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены. - Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз деше

31 May

Елена

С Майскими от AI-Newz! 🚀 Нейродайджест #68: LLM-праздник! Баф Gemini 2.5 Pro - топ арены! Mistral Medium 3 - почти Sonnet, но в 7 раз дешевле! 🤯 Погнали заряжать креативность! Читать далее

NVIDIA: Обучение роботов жить в реальном мире через симуляции и нейросети

31 May

Мультимодальная генерация в ChatGPT: что нового?

Мультимодальная генерация в ChatGPT: Как круто, так и не очень!

Обсуждение (0)

Вам также может понравиться