Мультимодальная генерация в ChatGPT: Как круто, так и не очень!
Ну что, наконец-то случилось то, о чем все мы мечтали и обсуждали еще в прошлом году: нативная генерация картинок в ChatGPT 4o! И чтобы добавить сверкания к этому событию, на стрим к нам заглянул сам Сэм Альтман — ну, разве это не повод поднять бокал за инновации?
Но давайте разберемся по порядку. Мы имеем дело с мультимодальной генерацией, которая, несомненно, вызвала у многих восторг своим анонсом еще в Gemini Flash 2.0. И, что приятно, на этот раз все стало значительно лучше. Но не спешите раскатывать ковры и дружно аплодировать — первое впечатление может немного обмануть.
Качество новых генераций все еще вызывает вопросы. Я быстро протестировал обновления, и, как ни печально, фотореализм пока останется на уровне мечты. Это было ожидаемо, ведь LLM (large language models) всё еще не могут соперничать с чисто диффузионными моделями, которые до сих пор показывают более высокое качество изображений.
На стриме, кстати, не показывали ни одной картинки в реалистичном стиле. Все иллюстрации были больше в направлении стилизованного, художественного исполнения. Может, организаторы просто хотели создать настроение, а не смущать нас реальными портретами? В конце концов, кому нужно чернобелое уныние, когда можно разнообразить мир абстракциями и красочным перечислением аксессуаров на картинках?
Можно, конечно, попробовать выдавить из модели что-то более фотореалистичное через интересные инструменты вроде Flux. Или же использовать диффузионный апскейлер, чтобы вытянуть детали и сделать картинку более знатной. Но, честно говоря, это будет уже не то пальто. Мы ведь не ищем легких путей, верно?
И знаете, эта ситуация кажется мне трендом последних месяцев: кто-то выпускает интересную функцию, которую OpenAI давно анонсировало, и все бегут с бахилами за обновлениями. Приходит Сэм с новыми идеями и всех накрывает своим шармом (или, в некоторых случаях, нет — зависит от настроения). Это немного напоминает соревнования по боксу: кто-то анонсирует свою очередь, но остальным остается лишь наблюдать, как они бьют кулаками по воздуху.
Так что, если вас интересует, чем живет мир мультимодальной генерации, — обязательно посмотрите записи стримов и блогов от OpenAI. Это, безусловно, поможет вам составить более полное представление о том, куда движется эта шальная техника.
Не забудьте заглянуть на @ai_newz, чтобы быть в курсе всех новинок. В конце концов, в мире инноваций всегда найдется место для свежих идей!
Вам также может понравиться






















