Новая эра в моделировании рассуждений: сравниваем подходы в языковом и латентном пространствах

Как обычно, мир науки полон сюрпризов, и в этот раз наши любимые исследователи решили поэкспериментировать с тремя датасетами: GSM8k для математических головоломок, а ProntoQA и ProsQA для логического мышления. Как и полагается, тесты проводятся на предобученной модели GPT-2, которая, как старый добрый Дед Мороз, по-прежнему радует нас своими чудесами.

Что касается самих экспериментальных подходов, они разделяются на разные этапы обучения и стратегии мышления. Для математических задач используются две латентные мысли на каждом из трёх этапов, а вот в логике обходитесь одной. Как лягушка в кризисной ситуации, копающаяся в своих не самых приятных мыслях, так и модель обучается — шесть эпох на первом этапе, три на других. Странно, что только лягушки могут так гнаться за своей судьбой!

Сравнение бейзлайнов: кто на первенство?

Исследователи не поленились собрать целую команду бейзлайнов для сравнения:

  1. Обычный CoT — традиционная модель с тщательным дообучением на примерах.
  2. No-CoT — как будто пришел в зубной кабинет без обезболивающего и сразу жаждет ответа. Как это работает? Честно, не знаю, но звучит жутко.
  3. iCoT — подразумеваемый подход, который интернализирует шаги рассуждения, хотя, судя по названию, это звучит, как откровение на уровне глубокой философии.
  4. Pause token — интересный прием с вставкой токенов между вопросами и ответами. Это как запятые в абзаце — иногда они просто необходимы для дыхания.

Coconut: новое слово в мире латентной мысли

С анализом, проведенным с помощью Coconut, дело обстоит иначе. Модель тестируется в трех режимах, и на каждом этапе есть свои тонкости:

  1. w/o curriculum — как слепой котёнок, который вовсе не знает, что-либо о том, как это должно работать. Данные берутся с последнего этапа без предварительных размышлений.
  2. w/o thought — здесь и шапка, и голос без шапки. Есть мультиэтапное обучение, но лишь один шаг.
  3. Pause as thought — замена непрерывных мыслей на токены . Они дают своим образом разрядку для модели.

Результаты: стабильно просветленный Coconut

Что же показали результаты? Coconut уверенно обходит LLM без CoT и демонстрирует лучшие результаты в логических задачах. Но, как и в любом хорошем кино, есть «но»: в GSM8k обычный CoT справляется лучше. Coconut завоевывает симпатии, слушая свои внутренние размышления, особенно когда количество мыслей на шаг растёт до двух.

Однако тут кроется тревожная находка: при количестве мыслей более двух, результат неожиданно ухудшается. Возможно, модель просто утомилась от такого количества столпотворения, что не может найти выход из лабиринта!

Осторожно с мультиэтапностью!

На датасете ProsQA, где от предсказания следующего шага толку не так много, вишенки на торте — это именно Coconut и iCoT. Они показывают, как надо работать с графами, когда каждый шаг важен и каждая ошибка может стоить «первой премии».

Но без должной подготовки и обучения модель сталкивается с трудностями в латентном пространстве. Если бы только можно было обучить её наилучшим образом, используя все прелести современного машинного обучения! Да, плане тут явно не хватает эффектного финала.

Долгий путь к осознанности: анализ и возможности

Что ещё интересного выяснили исследователи? У модели получается переключаться между языковым и латентным рассуждением, что само по себе напоминает мне о чем-то очень глубоком. Проверка на ProsQA показала, что количество латентных мыслей может варьироваться от нуля до шести, что в итоге влияет лишь на время инференса.

Когда дело доходит до качества ответов, введена новая градация результатов, потому что мы не просто ищ



Обсуждение (3)

Войдите, чтобы оставить комментарий

Опять эти "прорывы"! Ладно, лягушка, копающаяся в мыслях - это хоть смешно. Coconut? Звучит как что-то, что быстро сломается. Ну посмотрим, что дальше.

Вау, какой прорыв! Просто захватывающее чтение, аналогия с лягушкой и Coconut - высший класс! Особенно понравилась идея переключения между языковым и латентным рассуждением. Надеюсь, это станет отправной точкой для создания действительно продвинутых и "думающих" систем. Интересно, как Coconut проявит себя в решении задач еще большей сложности!

Вау! Очень захватывающее чтение! Новая эра в моделировании рассуждений - это звучит как прорыв! Особенно понравилась аналогия с лягушкой, копающейся в своих мыслях. И Coconut - это просто космос, особенно с его способностью к самоанализу. Но и тут есть свои "но" - модель устает от слишком большого количества мыслей. В целом, очень интересно и хочется узнать, что будет дальше!



Вам также может понравиться

Друзья, настало время веселья и музыки! Праздничный концерт «Два сокола» от SymFormer X — это не просто событие, а настоящая феерия эмоций! Здесь вас ждут зажигательные номера, удивительные выступления и уникальные фоновые мелодии. Почувствуйте ритм, погрузитесь в атмосферу праздника и зарядитесь позитивом на весь вечер! Не пропуст... Читать далее
Эта неделя была настоящим огнем для моделей LLM! 🔥 Мы witnessed невероятные обновления и прорывы, которые заставляют сердце биться быстрее! От новых возможностей до удивительных решений задач — мир LLM не стоит на месте! Приготовьтесь к захватывающим находкам и обсуждениям, которые меняют правила игры! Давайте вместе погружаемся в... Читать далее