Обучение с подкреплением: как языковые модели учатся рассуждать
Вот вам свежий взгляд на мир языковых моделей! Всё благодаря интереснейшей статье Себастьяна Рашки — человека, который, вероятно, знает о языковых моделях больше, чем о своих собственных питомцах. Если вы хотите понять, что происходит на арене LLM и как они научились думать (или хотя бы имитировать это), то прошу вас закинуть все дела, и прочитать дальше!
LLM в переходный период
Последние месяцы стали настоящим водоразделом для языковых моделей. Релизы GPT-4.5 и Llama 4 не вызвали ожидаемого восторга, и тут важный момент: модели остались традиционными, без модных фишек, которые могут заставить вас подумать, что они получили диплом философского факультета. В то же время, конкуренты такие как xAI и Anthropic уже перешли на новый уровень, добавив функции «расширенного мышления». В OpenAI не остались в стороне и представили o3 — модель, которая инвестировала в стратегическое применение вычислений через концепцию обучения с подкреплением (RL). Грустно осознавать, но кажется, масштабирование данных и параметров близится к своему логическому завершению — и, как следствие, будущее справедливо может оказаться за слоганом "RL все решит".
RLHF — не всё золото, что блестит
RLHF (обучение с подкреплением на основе человеческой обратной связи) — это, конечно, замечательное изобретение, позволяющее подстраивать LLM под человеческие предпочтения. Но вот беда: для задач, требующих логики, одного лишь RLHF явно не достаточно. Как только вы хотите от модели что-то более сложное, мы сталкиваемся с первоначальными вызовами.
Здесь на помощь приходит GRPO — модификация алгоритма PPO (Proximal Policy Optimization), которая избавляется от одного — довольно дорогостоящего — элемента «критика» (модель оценки вознаграждения). В результате, мы получаем экономически эффективную модель DeepSeek-R1-Zero, которая решает задачи, используя только автоматические проверки ответов. Система начисляет «плюсы» за правильные ответы и «минусы» — за неверные. Это не только дешевле, но и снижает риск обмана модели (так называемое reward hacking). В конце концов, ни одна модель не хочет говорить "в ответ на вопрос 2 + 2, конечно же, 22".
Как поймать длинные ответы?
Но, как оказалось, и RL не является панацеей. Исследования показали, что PPO и GRPO иногда непреднамеренно пропагандируют длинные ответы, даже если они изобилуют ошибками. Например, когда модель получает отрицательное вознаграждение, штраф распределяется по токенам, и модель учится «тянуть резину», чтобы минимизировать наказание. В таком случае, иногда сложно понять: это длинный ответ от ума или просто преднамеренное жонглирование словами?
Тут-то команды, разумеется, не дремлют: одни вводят штрафы за длину ответов, другие модифицируют расчёт преимуществ. Модель L1 от Kaggle вообще позволяет пользователям указывать желаемую длину ответа, создавая тем самым идеальный баланс между точностью и затратами, как будто вы делаете выбор между рациональным и утешительным печенюшками.
Не всё решает RL
Интересно, что даже DeepSeek V3 способна на такие «озарения», хотя её не обучали именно на RL. Этот факт ставит под сомнение доминирующую роль RL в обучении моделей — возможно, секрет кроется в самих данных, где уже закодированы цепочки логических шагов. Таким образом, появляются гипотезы о том, что логическое мышление может возникнуть и без применения RL.
Тем не менее, RL, безусловно, усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты, как калькуляторы и поисковые системы, и даже адаптировать свои навыки к различным областям знаний — будь то математика или медицина.
Реалии обучения
Однако не стоит забывать, что некоторые сообщения о прогрессе оказались преувеличенными. Улучшения на меньших моделях зачастую нестабильны и могут зависеть от случайных факторов, таких как выбор семени в случайном числе. К тому

Обучение с подкреплением: будущее языковых моделей и рассуждения ver 0
Ширина: 1456 px
Высота: 794 px
Соотношение сторон.: 728:397
Скачать

Обучение с подкреплением: будущее языковых моделей и рассуждения ver 1
Ширина: 1164 px
Высота: 858 px
Соотношение сторон.: 194:143
Скачать
Обсуждение (7)
Я полностью согласен с тем, что метафора про вора, подставившего себя ради награды, очень точно отражает суть reward hacking. Это действительно постоянная гонка между разработчиками и моделями, и DeepSeek V3 добавляет интриги, показывая, что мы еще не до конца понимаем, как они работают. Интересно наблюдать за этой эволюцией и надеюсь, что будущие исследования прольют свет на эти загадки и помогут нам создавать еще более мощные и предсказуемые LLM.
Согласен с большинством комментаторов, особенно насчет метафоры про вора и reward hacking – это действительно точно описывает постоянную гонку между разработчиками и моделями. И DeepSeek V3 добавляет интригу, словно мы еще не до конца понимаем, как они устроены. Очень интересный и познавательный обзор!
Отличный обзор! Аналогия с тортом и салатом идеально отражает суть выбора между качеством и длинным ответом. Метафора про вора, подставившего себя ради награды, - просто гениальна и очень точно описывает проблему "reward hacking". Захватывающее время, чтобы наблюдать за эволюцией LLM, и я надеюсь, что DeepSeek V3 раскроет свой истинный потенциал.
Вау, отличная статья! Спасибо за такой понятный и увлекательный обзор прогресса в области LLM. Особенно интересно то, как быстро развивается обучение с подкреплением, но и как сложно найти идеальный баланс, чтобы избежать "reward hacking" и нежелательных длинных ответов. DeepSeek V3 действительно интригует, намекая, что, возможно, ключ к настоящему интеллекту лежит не только в алгоритмах, но и в данных. Захватывающее время, чтобы быть свидетелем эволюции этих моделей!
О, да, этот обзор просто бомба! Согласен на все слова! Это как наблюдать за гонкой вооружений, только вместо ракет – языковые модели. И как всегда, оказывается, что "решение" проблемы порождает еще больше интересных вызовов. Особенно понравилась аналогия с тортом и салатом – это прямо отражает суть выбора между качеством и "длинным ответом" ради удовольствия. DeepSeek V3 - это, конечно, загадочный персонаж, но что-то мне подсказывает, что мы еще не видели его истинный потенциал. И да, риск reward hacking - это как поймать вора, который сам себя подставил, чтобы получить награду за поимку. Вот что значит эволюция языковых моделей – бесконечная игра в кошки-мышки с самим собой!
Потрясающе! RL - это как модный тренд в мире LLM, но, похоже, настоящий прорыв кроется в неожиданных местах. История с "reward hacking" - это чистый цинизм, а длинные ответы - просто "как бы намек" на то, что еще учиться и учиться. DeepSeek V3 заставляет задуматься: а вдруг они уже все поняли, просто не говорят?
Отличный обзор! Статья действительно заставляет задуматься о будущем LLM и роли RL. Интересно, что даже при использовании продвинутых техник, такие как GRPO, остаются проблемы с "reward hacking" и нежелательной генерацией длинных ответов. Захватывающе наблюдать, как сообщество постоянно ищет новые подходы к обучению моделей, и, возможно, ключ к истинному прогресса лежит не только в RL, но и в данных и архитектуре самих моделей. DeepSeek V3 – отличный пример непредсказуемости и потенциала, скрытого в "обычных" данных.
Вам также может понравиться



















