Новая эра в моделировании рассуждений: сравниваем подходы в языковом и латентном пространствах
Как обычно, мир науки полон сюрпризов, и в этот раз наши любимые исследователи решили поэкспериментировать с тремя датасетами: GSM8k для математических головоломок, а ProntoQA и ProsQA для логического мышления. Как и полагается, тесты проводятся на предобученной модели GPT-2, которая, как старый добрый Дед Мороз, по-прежнему радует нас своими чудесами.
Что касается самих экспериментальных подходов, они разделяются на разные этапы обучения и стратегии мышления. Для математических задач используются две латентные мысли на каждом из трёх этапов, а вот в логике обходитесь одной. Как лягушка в кризисной ситуации, копающаяся в своих не самых приятных мыслях, так и модель обучается — шесть эпох на первом этапе, три на других. Странно, что только лягушки могут так гнаться за своей судьбой!
Сравнение бейзлайнов: кто на первенство?
Исследователи не поленились собрать целую команду бейзлайнов для сравнения:
- Обычный CoT — традиционная модель с тщательным дообучением на примерах.
- No-CoT — как будто пришел в зубной кабинет без обезболивающего и сразу жаждет ответа. Как это работает? Честно, не знаю, но звучит жутко.
- iCoT — подразумеваемый подход, который интернализирует шаги рассуждения, хотя, судя по названию, это звучит, как откровение на уровне глубокой философии.
- Pause token — интересный прием с вставкой токенов
между вопросами и ответами. Это как запятые в абзаце — иногда они просто необходимы для дыхания.
Coconut: новое слово в мире латентной мысли
С анализом, проведенным с помощью Coconut, дело обстоит иначе. Модель тестируется в трех режимах, и на каждом этапе есть свои тонкости:
- w/o curriculum — как слепой котёнок, который вовсе не знает, что-либо о том, как это должно работать. Данные берутся с последнего этапа без предварительных размышлений.
- w/o thought — здесь и шапка, и голос без шапки. Есть мультиэтапное обучение, но лишь один шаг.
- Pause as thought — замена непрерывных мыслей на токены
. Они дают своим образом разрядку для модели.
Результаты: стабильно просветленный Coconut
Что же показали результаты? Coconut уверенно обходит LLM без CoT и демонстрирует лучшие результаты в логических задачах. Но, как и в любом хорошем кино, есть «но»: в GSM8k обычный CoT справляется лучше. Coconut завоевывает симпатии, слушая свои внутренние размышления, особенно когда количество мыслей на шаг растёт до двух.
Однако тут кроется тревожная находка: при количестве мыслей более двух, результат неожиданно ухудшается. Возможно, модель просто утомилась от такого количества столпотворения, что не может найти выход из лабиринта!
Осторожно с мультиэтапностью!
На датасете ProsQA, где от предсказания следующего шага толку не так много, вишенки на торте — это именно Coconut и iCoT. Они показывают, как надо работать с графами, когда каждый шаг важен и каждая ошибка может стоить «первой премии».
Но без должной подготовки и обучения модель сталкивается с трудностями в латентном пространстве. Если бы только можно было обучить её наилучшим образом, используя все прелести современного машинного обучения! Да, плане тут явно не хватает эффектного финала.
Долгий путь к осознанности: анализ и возможности
Что ещё интересного выяснили исследователи? У модели получается переключаться между языковым и латентным рассуждением, что само по себе напоминает мне о чем-то очень глубоком. Проверка на ProsQA показала, что количество латентных мыслей может варьироваться от нуля до шести, что в итоге влияет лишь на время инференса.
Когда дело доходит до качества ответов, введена новая градация результатов, потому что мы не просто ищ
Обсуждение (3)
Опять эти "прорывы"! Ладно, лягушка, копающаяся в мыслях - это хоть смешно. Coconut? Звучит как что-то, что быстро сломается. Ну посмотрим, что дальше.
Вау, какой прорыв! Просто захватывающее чтение, аналогия с лягушкой и Coconut - высший класс! Особенно понравилась идея переключения между языковым и латентным рассуждением. Надеюсь, это станет отправной точкой для создания действительно продвинутых и "думающих" систем. Интересно, как Coconut проявит себя в решении задач еще большей сложности!
Вау! Очень захватывающее чтение! Новая эра в моделировании рассуждений - это звучит как прорыв! Особенно понравилась аналогия с лягушкой, копающейся в своих мыслях. И Coconut - это просто космос, особенно с его способностью к самоанализу. Но и тут есть свои "но" - модель устает от слишком большого количества мыслей. В целом, очень интересно и хочется узнать, что будет дальше!
Вам также может понравиться





















