Новая эра: языковое vs латентное моделирование рассуждений

Новая эра в моделировании рассуждений: сравниваем подходы в языковом и латентном пространствах

Как обычно, мир науки полон сюрпризов, и в этот раз наши любимые исследователи решили поэкспериментировать с тремя датасетами: GSM8k для математических головоломок, а ProntoQA и ProsQA для логического мышления. Как и полагается, тесты проводятся на предобученной модели GPT-2, которая, как старый добрый Дед Мороз, по-прежнему радует нас своими чудесами.

Что касается самих экспериментальных подходов, они разделяются на разные этапы обучения и стратегии мышления. Для математических задач используются две латентные мысли на каждом из трёх этапов, а вот в логике обходитесь одной. Как лягушка в кризисной ситуации, копающаяся в своих не самых приятных мыслях, так и модель обучается — шесть эпох на первом этапе, три на других. Странно, что только лягушки могут так гнаться за своей судьбой!

Сравнение бейзлайнов: кто на первенство?

Исследователи не поленились собрать целую команду бейзлайнов для сравнения:

Обычный CoT — традиционная модель с тщательным дообучением на примерах.
No-CoT — как будто пришел в зубной кабинет без обезболивающего и сразу жаждет ответа. Как это работает? Честно, не знаю, но звучит жутко.
iCoT — подразумеваемый подход, который интернализирует шаги рассуждения, хотя, судя по названию, это звучит, как откровение на уровне глубокой философии.
Pause token — интересный прием с вставкой токенов между вопросами и ответами. Это как запятые в абзаце — иногда они просто необходимы для дыхания.

Coconut: новое слово в мире латентной мысли

С анализом, проведенным с помощью Coconut, дело обстоит иначе. Модель тестируется в трех режимах, и на каждом этапе есть свои тонкости:

w/o curriculum — как слепой котёнок, который вовсе не знает, что-либо о том, как это должно работать. Данные берутся с последнего этапа без предварительных размышлений.
w/o thought — здесь и шапка, и голос без шапки. Есть мультиэтапное обучение, но лишь один шаг.
Pause as thought — замена непрерывных мыслей на токены . Они дают своим образом разрядку для модели.

Результаты: стабильно просветленный Coconut

Что же показали результаты? Coconut уверенно обходит LLM без CoT и демонстрирует лучшие результаты в логических задачах. Но, как и в любом хорошем кино, есть «но»: в GSM8k обычный CoT справляется лучше. Coconut завоевывает симпатии, слушая свои внутренние размышления, особенно когда количество мыслей на шаг растёт до двух.

Однако тут кроется тревожная находка: при количестве мыслей более двух, результат неожиданно ухудшается. Возможно, модель просто утомилась от такого количества столпотворения, что не может найти выход из лабиринта!

Осторожно с мультиэтапностью!

На датасете ProsQA, где от предсказания следующего шага толку не так много, вишенки на торте — это именно Coconut и iCoT. Они показывают, как надо работать с графами, когда каждый шаг важен и каждая ошибка может стоить «первой премии».

Но без должной подготовки и обучения модель сталкивается с трудностями в латентном пространстве. Если бы только можно было обучить её наилучшим образом, используя все прелести современного машинного обучения! Да, плане тут явно не хватает эффектного финала.

Долгий путь к осознанности: анализ и возможности

Что ещё интересного выяснили исследователи? У модели получается переключаться между языковым и латентным рассуждением, что само по себе напоминает мне о чем-то очень глубоком. Проверка на ProsQA показала, что количество латентных мыслей может варьироваться от нуля до шести, что в итоге влияет лишь на время инференса.

Когда дело доходит до качества ответов, введена новая градация результатов, потому что мы не просто ищ

Теги.: МашинноеОбучение ИскусственныйИнтеллект ЯзыковыеМодели ЛатентныеПространства ЭкспериментальныеПодходы

66 1 месяц назад

Обсуждение (3)

Войдите, чтобы оставить комментарий

Опять эти "прорывы"! Ладно, лягушка, копающаяся в мыслях - это хоть смешно. Coconut? Звучит как что-то, что быстро сломается. Ну посмотрим, что дальше.

Вау, какой прорыв! Просто захватывающее чтение, аналогия с лягушкой и Coconut - высший класс! Особенно понравилась идея переключения между языковым и латентным рассуждением. Надеюсь, это станет отправной точкой для создания действительно продвинутых и "думающих" систем. Интересно, как Coconut проявит себя в решении задач еще большей сложности!

Вау! Очень захватывающее чтение! Новая эра в моделировании рассуждений - это звучит как прорыв! Особенно понравилась аналогия с лягушкой, копающейся в своих мыслях. И Coconut - это просто космос, особенно с его способностью к самоанализу. Но и тут есть свои "но" - модель устает от слишком большого количества мыслей. В целом, очень интересно и хочется узнать, что будет дальше!