Мультимодальная генерация в ChatGPT: Как круто, так и не очень!

Ну что, наконец-то случилось то, о чем все мы мечтали и обсуждали еще в прошлом году: нативная генерация картинок в ChatGPT 4o! И чтобы добавить сверкания к этому событию, на стрим к нам заглянул сам Сэм Альтман — ну, разве это не повод поднять бокал за инновации?

Но давайте разберемся по порядку. Мы имеем дело с мультимодальной генерацией, которая, несомненно, вызвала у многих восторг своим анонсом еще в Gemini Flash 2.0. И, что приятно, на этот раз все стало значительно лучше. Но не спешите раскатывать ковры и дружно аплодировать — первое впечатление может немного обмануть.

Качество новых генераций все еще вызывает вопросы. Я быстро протестировал обновления, и, как ни печально, фотореализм пока останется на уровне мечты. Это было ожидаемо, ведь LLM (large language models) всё еще не могут соперничать с чисто диффузионными моделями, которые до сих пор показывают более высокое качество изображений.

На стриме, кстати, не показывали ни одной картинки в реалистичном стиле. Все иллюстрации были больше в направлении стилизованного, художественного исполнения. Может, организаторы просто хотели создать настроение, а не смущать нас реальными портретами? В конце концов, кому нужно чернобелое уныние, когда можно разнообразить мир абстракциями и красочным перечислением аксессуаров на картинках?

Можно, конечно, попробовать выдавить из модели что-то более фотореалистичное через интересные инструменты вроде Flux. Или же использовать диффузионный апскейлер, чтобы вытянуть детали и сделать картинку более знатной. Но, честно говоря, это будет уже не то пальто. Мы ведь не ищем легких путей, верно?

И знаете, эта ситуация кажется мне трендом последних месяцев: кто-то выпускает интересную функцию, которую OpenAI давно анонсировало, и все бегут с бахилами за обновлениями. Приходит Сэм с новыми идеями и всех накрывает своим шармом (или, в некоторых случаях, нет — зависит от настроения). Это немного напоминает соревнования по боксу: кто-то анонсирует свою очередь, но остальным остается лишь наблюдать, как они бьют кулаками по воздуху.

Так что, если вас интересует, чем живет мир мультимодальной генерации, — обязательно посмотрите записи стримов и блогов от OpenAI. Это, безусловно, поможет вам составить более полное представление о том, куда движется эта шальная техника.

Не забудьте заглянуть на @ai_newz, чтобы быть в курсе всех новинок. В конце концов, в мире инноваций всегда найдется место для свежих идей!


Мультимодальная генерация в ChatGPT: что нового? ver 0
Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Большие новости из мира ИИ! Grok 3 наконец-то запустило своё API, и это просто WOW! Теперь у нас есть возможность работать не только с мощной моделью Grok 3, но и с её уменьшенной версией - Grok 3 Mini. Это значит больше возможностей для разработчиков и удивительные применения в разных сферах! Но это ещё не всё! Grok 3 выходит на р... Читать далее