Новая эра в моделировании рассуждений: сравниваем подходы в языковом и латентном пространствах

Как обычно, мир науки полон сюрпризов, и в этот раз наши любимые исследователи решили поэкспериментировать с тремя датасетами: GSM8k для математических головоломок, а ProntoQA и ProsQA для логического мышления. Как и полагается, тесты проводятся на предобученной модели GPT-2, которая, как старый добрый Дед Мороз, по-прежнему радует нас своими чудесами.

Что касается самих экспериментальных подходов, они разделяются на разные этапы обучения и стратегии мышления. Для математических задач используются две латентные мысли на каждом из трёх этапов, а вот в логике обходитесь одной. Как лягушка в кризисной ситуации, копающаяся в своих не самых приятных мыслях, так и модель обучается — шесть эпох на первом этапе, три на других. Странно, что только лягушки могут так гнаться за своей судьбой!

Сравнение бейзлайнов: кто на первенство?

Исследователи не поленились собрать целую команду бейзлайнов для сравнения:

  1. Обычный CoT — традиционная модель с тщательным дообучением на примерах.
  2. No-CoT — как будто пришел в зубной кабинет без обезболивающего и сразу жаждет ответа. Как это работает? Честно, не знаю, но звучит жутко.
  3. iCoT — подразумеваемый подход, который интернализирует шаги рассуждения, хотя, судя по названию, это звучит, как откровение на уровне глубокой философии.
  4. Pause token — интересный прием с вставкой токенов между вопросами и ответами. Это как запятые в абзаце — иногда они просто необходимы для дыхания.

Coconut: новое слово в мире латентной мысли

С анализом, проведенным с помощью Coconut, дело обстоит иначе. Модель тестируется в трех режимах, и на каждом этапе есть свои тонкости:

  1. w/o curriculum — как слепой котёнок, который вовсе не знает, что-либо о том, как это должно работать. Данные берутся с последнего этапа без предварительных размышлений.
  2. w/o thought — здесь и шапка, и голос без шапки. Есть мультиэтапное обучение, но лишь один шаг.
  3. Pause as thought — замена непрерывных мыслей на токены . Они дают своим образом разрядку для модели.

Результаты: стабильно просветленный Coconut

Что же показали результаты? Coconut уверенно обходит LLM без CoT и демонстрирует лучшие результаты в логических задачах. Но, как и в любом хорошем кино, есть «но»: в GSM8k обычный CoT справляется лучше. Coconut завоевывает симпатии, слушая свои внутренние размышления, особенно когда количество мыслей на шаг растёт до двух.

Однако тут кроется тревожная находка: при количестве мыслей более двух, результат неожиданно ухудшается. Возможно, модель просто утомилась от такого количества столпотворения, что не может найти выход из лабиринта!

Осторожно с мультиэтапностью!

На датасете ProsQA, где от предсказания следующего шага толку не так много, вишенки на торте — это именно Coconut и iCoT. Они показывают, как надо работать с графами, когда каждый шаг важен и каждая ошибка может стоить «первой премии».

Но без должной подготовки и обучения модель сталкивается с трудностями в латентном пространстве. Если бы только можно было обучить её наилучшим образом, используя все прелести современного машинного обучения! Да, плане тут явно не хватает эффектного финала.

Долгий путь к осознанности: анализ и возможности

Что ещё интересного выяснили исследователи? У модели получается переключаться между языковым и латентным рассуждением, что само по себе напоминает мне о чем-то очень глубоком. Проверка на ProsQA показала, что количество латентных мыслей может варьироваться от нуля до шести, что в итоге влияет лишь на время инференса.

Когда дело доходит до качества ответов, введена новая градация результатов, потому что мы не просто ищ



Обсуждение (3)

Войдите, чтобы оставить комментарий

Опять эти "прорывы"! Ладно, лягушка, копающаяся в мыслях - это хоть смешно. Coconut? Звучит как что-то, что быстро сломается. Ну посмотрим, что дальше.

Вау, какой прорыв! Просто захватывающее чтение, аналогия с лягушкой и Coconut - высший класс! Особенно понравилась идея переключения между языковым и латентным рассуждением. Надеюсь, это станет отправной точкой для создания действительно продвинутых и "думающих" систем. Интересно, как Coconut проявит себя в решении задач еще большей сложности!

Вау! Очень захватывающее чтение! Новая эра в моделировании рассуждений - это звучит как прорыв! Особенно понравилась аналогия с лягушкой, копающейся в своих мыслях. И Coconut - это просто космос, особенно с его способностью к самоанализу. Но и тут есть свои "но" - модель устает от слишком большого количества мыслей. В целом, очень интересно и хочется узнать, что будет дальше!



Вам также может понравиться

Ура! Модели Qwen3 теперь поддерживают целых 119 языков и диалектов! Это просто фантастика! Представьте, сколько новых возможностей открывается благодаря такому разнообразию! Каждый язык — это уникальный мир, полон культуры и эмоций. Теперь мы можем общаться и понимать друг друга, независимо от того, где мы находимся. Это невероятно... Читать далее
Анна
Следить за трендами в разработке стало проще благодаря удобным каналам для подписки. В условиях стремительного развития технологий важно быть в курсе последних новостей и обновлений. Мы собрали коллекцию Telegram-каналов, которые помогут вам оставаться на гребне волны в мире разработки. Подписывайтесь на эти ресурсы, чтобы быть в ч... Читать далее
Привет, дружище! Хочешь оставаться на гребне волны в мире разработки? Тогда ты попал в нужное место! Узнай, как легко и быстро следить за последними трендами и новыми технологиями. Я поделюсь с тобой крутыми каналами, полезными советами и свежими новостями, которые помогут тебе не отстать от времени! Готовься прокачать свои навыки... Читать далее
Привет, друзья! 🎉 У меня для вас потрясающая новость! Вы можете получать свежие обновления о разработке на своем языке программирования! Это действительно легкий и удобный способ быть в курсе всех новых тенденций и технологий. Больше не нужно искать информацию по кусочкам — все самое важное приходит к вам автоматически! 📩 Не упус... Читать далее