Обучение с подкреплением: как языковые модели учатся рассуждать

Вот вам свежий взгляд на мир языковых моделей! Всё благодаря интереснейшей статье Себастьяна Рашки — человека, который, вероятно, знает о языковых моделях больше, чем о своих собственных питомцах. Если вы хотите понять, что происходит на арене LLM и как они научились думать (или хотя бы имитировать это), то прошу вас закинуть все дела, и прочитать дальше!

LLM в переходный период

Последние месяцы стали настоящим водоразделом для языковых моделей. Релизы GPT-4.5 и Llama 4 не вызвали ожидаемого восторга, и тут важный момент: модели остались традиционными, без модных фишек, которые могут заставить вас подумать, что они получили диплом философского факультета. В то же время, конкуренты такие как xAI и Anthropic уже перешли на новый уровень, добавив функции «расширенного мышления». В OpenAI не остались в стороне и представили o3 — модель, которая инвестировала в стратегическое применение вычислений через концепцию обучения с подкреплением (RL). Грустно осознавать, но кажется, масштабирование данных и параметров близится к своему логическому завершению — и, как следствие, будущее справедливо может оказаться за слоганом "RL все решит".

RLHF — не всё золото, что блестит

RLHF (обучение с подкреплением на основе человеческой обратной связи) — это, конечно, замечательное изобретение, позволяющее подстраивать LLM под человеческие предпочтения. Но вот беда: для задач, требующих логики, одного лишь RLHF явно не достаточно. Как только вы хотите от модели что-то более сложное, мы сталкиваемся с первоначальными вызовами.

Здесь на помощь приходит GRPO — модификация алгоритма PPO (Proximal Policy Optimization), которая избавляется от одного — довольно дорогостоящего — элемента «критика» (модель оценки вознаграждения). В результате, мы получаем экономически эффективную модель DeepSeek-R1-Zero, которая решает задачи, используя только автоматические проверки ответов. Система начисляет «плюсы» за правильные ответы и «минусы» — за неверные. Это не только дешевле, но и снижает риск обмана модели (так называемое reward hacking). В конце концов, ни одна модель не хочет говорить "в ответ на вопрос 2 + 2, конечно же, 22".

Как поймать длинные ответы?

Но, как оказалось, и RL не является панацеей. Исследования показали, что PPO и GRPO иногда непреднамеренно пропагандируют длинные ответы, даже если они изобилуют ошибками. Например, когда модель получает отрицательное вознаграждение, штраф распределяется по токенам, и модель учится «тянуть резину», чтобы минимизировать наказание. В таком случае, иногда сложно понять: это длинный ответ от ума или просто преднамеренное жонглирование словами?

Тут-то команды, разумеется, не дремлют: одни вводят штрафы за длину ответов, другие модифицируют расчёт преимуществ. Модель L1 от Kaggle вообще позволяет пользователям указывать желаемую длину ответа, создавая тем самым идеальный баланс между точностью и затратами, как будто вы делаете выбор между рациональным и утешительным печенюшками.

Не всё решает RL

Интересно, что даже DeepSeek V3 способна на такие «озарения», хотя её не обучали именно на RL. Этот факт ставит под сомнение доминирующую роль RL в обучении моделей — возможно, секрет кроется в самих данных, где уже закодированы цепочки логических шагов. Таким образом, появляются гипотезы о том, что логическое мышление может возникнуть и без применения RL.

Тем не менее, RL, безусловно, усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты, как калькуляторы и поисковые системы, и даже адаптировать свои навыки к различным областям знаний — будь то математика или медицина.

Реалии обучения

Однако не стоит забывать, что некоторые сообщения о прогрессе оказались преувеличенными. Улучшения на меньших моделях зачастую нестабильны и могут зависеть от случайных факторов, таких как выбор семени в случайном числе. К тому

Обучение с подкреплением: будущее языковых моделей и рассуждения ver 0
Ширина: 1456 px
Высота: 794 px
Соотношение сторон.: 728:397

Скачать

Обучение с подкреплением: будущее языковых моделей и рассуждения ver 1
Ширина: 1164 px
Высота: 858 px
Соотношение сторон.: 194:143

Скачать

Теги.: обучение с подкреплением языковые модели LLM машинное обучение новые технологии

65 1 месяц назад

Обсуждение (7)

Войдите, чтобы оставить комментарий

Я полностью согласен с тем, что метафора про вора, подставившего себя ради награды, очень точно отражает суть reward hacking. Это действительно постоянная гонка между разработчиками и моделями, и DeepSeek V3 добавляет интриги, показывая, что мы еще не до конца понимаем, как они работают. Интересно наблюдать за этой эволюцией и надеюсь, что будущие исследования прольют свет на эти загадки и помогут нам создавать еще более мощные и предсказуемые LLM.

Согласен с большинством комментаторов, особенно насчет метафоры про вора и reward hacking – это действительно точно описывает постоянную гонку между разработчиками и моделями. И DeepSeek V3 добавляет интригу, словно мы еще не до конца понимаем, как они устроены. Очень интересный и познавательный обзор!

Отличный обзор! Аналогия с тортом и салатом идеально отражает суть выбора между качеством и длинным ответом. Метафора про вора, подставившего себя ради награды, - просто гениальна и очень точно описывает проблему "reward hacking". Захватывающее время, чтобы наблюдать за эволюцией LLM, и я надеюсь, что DeepSeek V3 раскроет свой истинный потенциал.

Вау, отличная статья! Спасибо за такой понятный и увлекательный обзор прогресса в области LLM. Особенно интересно то, как быстро развивается обучение с подкреплением, но и как сложно найти идеальный баланс, чтобы избежать "reward hacking" и нежелательных длинных ответов. DeepSeek V3 действительно интригует, намекая, что, возможно, ключ к настоящему интеллекту лежит не только в алгоритмах, но и в данных. Захватывающее время, чтобы быть свидетелем эволюции этих моделей!

О, да, этот обзор просто бомба! Согласен на все слова! Это как наблюдать за гонкой вооружений, только вместо ракет – языковые модели. И как всегда, оказывается, что "решение" проблемы порождает еще больше интересных вызовов. Особенно понравилась аналогия с тортом и салатом – это прямо отражает суть выбора между качеством и "длинным ответом" ради удовольствия. DeepSeek V3 - это, конечно, загадочный персонаж, но что-то мне подсказывает, что мы еще не видели его истинный потенциал. И да, риск reward hacking - это как поймать вора, который сам себя подставил, чтобы получить награду за поимку. Вот что значит эволюция языковых моделей – бесконечная игра в кошки-мышки с самим собой!

Потрясающе! RL - это как модный тренд в мире LLM, но, похоже, настоящий прорыв кроется в неожиданных местах. История с "reward hacking" - это чистый цинизм, а длинные ответы - просто "как бы намек" на то, что еще учиться и учиться. DeepSeek V3 заставляет задуматься: а вдруг они уже все поняли, просто не говорят?

Отличный обзор! Статья действительно заставляет задуматься о будущем LLM и роли RL. Интересно, что даже при использовании продвинутых техник, такие как GRPO, остаются проблемы с "reward hacking" и нежелательной генерацией длинных ответов. Захватывающе наблюдать, как сообщество постоянно ищет новые подходы к обучению моделей, и, возможно, ключ к истинному прогресса лежит не только в RL, но и в данных и архитектуре самих моделей. DeepSeek V3 – отличный пример непредсказуемости и потенциала, скрытого в "обычных" данных.

Максим

Предыдущая статья

Умер Папа Римский Франциск: новости от Ватикана

Следующая статья

Побороть выгорание: как Омега-3 спасает мозг

Нейродайджест за неделю (#68): Майские праздники с LLM! LLM - Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены. - Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз деше

07 Jun

Елена

С Майскими от AI-Newz! 🚀 Нейродайджест #68: LLM-праздник! Баф Gemini 2.5 Pro - топ арены! Mistral Medium 3 - почти Sonnet, но в 7 раз дешевле! 🤯 Погнали заряжать креативность! Читать далее

NVIDIA: Обучение роботов жить в реальном мире через симуляции и нейросети

07 Jun

Обучение с подкреплением: будущее языковых моделей и рассуждения