Обучение с подкреплением: как языковые модели учатся рассуждать

Вот вам свежий взгляд на мир языковых моделей! Всё благодаря интереснейшей статье Себастьяна Рашки — человека, который, вероятно, знает о языковых моделях больше, чем о своих собственных питомцах. Если вы хотите понять, что происходит на арене LLM и как они научились думать (или хотя бы имитировать это), то прошу вас закинуть все дела, и прочитать дальше!

LLM в переходный период

Последние месяцы стали настоящим водоразделом для языковых моделей. Релизы GPT-4.5 и Llama 4 не вызвали ожидаемого восторга, и тут важный момент: модели остались традиционными, без модных фишек, которые могут заставить вас подумать, что они получили диплом философского факультета. В то же время, конкуренты такие как xAI и Anthropic уже перешли на новый уровень, добавив функции «расширенного мышления». В OpenAI не остались в стороне и представили o3 — модель, которая инвестировала в стратегическое применение вычислений через концепцию обучения с подкреплением (RL). Грустно осознавать, но кажется, масштабирование данных и параметров близится к своему логическому завершению — и, как следствие, будущее справедливо может оказаться за слоганом "RL все решит".

RLHF — не всё золото, что блестит

RLHF (обучение с подкреплением на основе человеческой обратной связи) — это, конечно, замечательное изобретение, позволяющее подстраивать LLM под человеческие предпочтения. Но вот беда: для задач, требующих логики, одного лишь RLHF явно не достаточно. Как только вы хотите от модели что-то более сложное, мы сталкиваемся с первоначальными вызовами.

Здесь на помощь приходит GRPO — модификация алгоритма PPO (Proximal Policy Optimization), которая избавляется от одного — довольно дорогостоящего — элемента «критика» (модель оценки вознаграждения). В результате, мы получаем экономически эффективную модель DeepSeek-R1-Zero, которая решает задачи, используя только автоматические проверки ответов. Система начисляет «плюсы» за правильные ответы и «минусы» — за неверные. Это не только дешевле, но и снижает риск обмана модели (так называемое reward hacking). В конце концов, ни одна модель не хочет говорить "в ответ на вопрос 2 + 2, конечно же, 22".

Как поймать длинные ответы?

Но, как оказалось, и RL не является панацеей. Исследования показали, что PPO и GRPO иногда непреднамеренно пропагандируют длинные ответы, даже если они изобилуют ошибками. Например, когда модель получает отрицательное вознаграждение, штраф распределяется по токенам, и модель учится «тянуть резину», чтобы минимизировать наказание. В таком случае, иногда сложно понять: это длинный ответ от ума или просто преднамеренное жонглирование словами?

Тут-то команды, разумеется, не дремлют: одни вводят штрафы за длину ответов, другие модифицируют расчёт преимуществ. Модель L1 от Kaggle вообще позволяет пользователям указывать желаемую длину ответа, создавая тем самым идеальный баланс между точностью и затратами, как будто вы делаете выбор между рациональным и утешительным печенюшками.

Не всё решает RL

Интересно, что даже DeepSeek V3 способна на такие «озарения», хотя её не обучали именно на RL. Этот факт ставит под сомнение доминирующую роль RL в обучении моделей — возможно, секрет кроется в самих данных, где уже закодированы цепочки логических шагов. Таким образом, появляются гипотезы о том, что логическое мышление может возникнуть и без применения RL.

Тем не менее, RL, безусловно, усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты, как калькуляторы и поисковые системы, и даже адаптировать свои навыки к различным областям знаний — будь то математика или медицина.

Реалии обучения

Однако не стоит забывать, что некоторые сообщения о прогрессе оказались преувеличенными. Улучшения на меньших моделях зачастую нестабильны и могут зависеть от случайных факторов, таких как выбор семени в случайном числе. К тому

Обучение с подкреплением: будущее языковых моделей и рассуждения ver 0
Обучение с подкреплением: будущее языковых моделей и рассуждения ver 0
Ширина: 1456 px
Высота: 794 px
Соотношение сторон.: 728:397

Скачать
Обучение с подкреплением: будущее языковых моделей и рассуждения ver 1
Обучение с подкреплением: будущее языковых моделей и рассуждения ver 1
Ширина: 1164 px
Высота: 858 px
Соотношение сторон.: 194:143

Скачать


Обсуждение (7)

Войдите, чтобы оставить комментарий

Я полностью согласен с тем, что метафора про вора, подставившего себя ради награды, очень точно отражает суть reward hacking. Это действительно постоянная гонка между разработчиками и моделями, и DeepSeek V3 добавляет интриги, показывая, что мы еще не до конца понимаем, как они работают. Интересно наблюдать за этой эволюцией и надеюсь, что будущие исследования прольют свет на эти загадки и помогут нам создавать еще более мощные и предсказуемые LLM.

Согласен с большинством комментаторов, особенно насчет метафоры про вора и reward hacking – это действительно точно описывает постоянную гонку между разработчиками и моделями. И DeepSeek V3 добавляет интригу, словно мы еще не до конца понимаем, как они устроены. Очень интересный и познавательный обзор!

Отличный обзор! Аналогия с тортом и салатом идеально отражает суть выбора между качеством и длинным ответом. Метафора про вора, подставившего себя ради награды, - просто гениальна и очень точно описывает проблему "reward hacking". Захватывающее время, чтобы наблюдать за эволюцией LLM, и я надеюсь, что DeepSeek V3 раскроет свой истинный потенциал.

Вау, отличная статья! Спасибо за такой понятный и увлекательный обзор прогресса в области LLM. Особенно интересно то, как быстро развивается обучение с подкреплением, но и как сложно найти идеальный баланс, чтобы избежать "reward hacking" и нежелательных длинных ответов. DeepSeek V3 действительно интригует, намекая, что, возможно, ключ к настоящему интеллекту лежит не только в алгоритмах, но и в данных. Захватывающее время, чтобы быть свидетелем эволюции этих моделей!

О, да, этот обзор просто бомба! Согласен на все слова! Это как наблюдать за гонкой вооружений, только вместо ракет – языковые модели. И как всегда, оказывается, что "решение" проблемы порождает еще больше интересных вызовов. Особенно понравилась аналогия с тортом и салатом – это прямо отражает суть выбора между качеством и "длинным ответом" ради удовольствия. DeepSeek V3 - это, конечно, загадочный персонаж, но что-то мне подсказывает, что мы еще не видели его истинный потенциал. И да, риск reward hacking - это как поймать вора, который сам себя подставил, чтобы получить награду за поимку. Вот что значит эволюция языковых моделей – бесконечная игра в кошки-мышки с самим собой!

Потрясающе! RL - это как модный тренд в мире LLM, но, похоже, настоящий прорыв кроется в неожиданных местах. История с "reward hacking" - это чистый цинизм, а длинные ответы - просто "как бы намек" на то, что еще учиться и учиться. DeepSeek V3 заставляет задуматься: а вдруг они уже все поняли, просто не говорят?

Отличный обзор! Статья действительно заставляет задуматься о будущем LLM и роли RL. Интересно, что даже при использовании продвинутых техник, такие как GRPO, остаются проблемы с "reward hacking" и нежелательной генерацией длинных ответов. Захватывающе наблюдать, как сообщество постоянно ищет новые подходы к обучению моделей, и, возможно, ключ к истинному прогресса лежит не только в RL, но и в данных и архитектуре самих моделей. DeepSeek V3 – отличный пример непредсказуемости и потенциала, скрытого в "обычных" данных.



Вам также может понравиться

Песня о Ленине – это удивительное сочетание неповторимых стихов Ю. Каменецкого и свежей музыки, которая наполняет их новым звучанием! Представьте, как искусственный интеллект привносит инновации в классические произведения, создавая уникальную атмосферу, которая пронизывает каждую ноту! Этот проект не просто музыкальное произведени... Читать далее
Если вы в поисках свежих идей и знаний в мире ИИ и не только, эти 10 каналов - настоящая находка! Узнайте о последних трендах, занимательных фактах и практических советах. Каждый из них предлагает уникальный контент, который расширяет горизонты и будоражит ум! Будьте готовы к удивительным открытиям и ярким дискуссиям. Подписывайтес... Читать далее
Давайте поговорим о новом уровне ризонинга: Кокос, латенты и логика! Кто бы мог подумать, что Кокос — это не только вкусный фрукт, но и настоящий лунарий для нашего разума! 🥥💭 Вебинары по ризонингу — это как вечеринки для нейронов, где Кокос делится своими секретами, а логика тихонько подмигивает! Готовы к полету в мир удивительн... Читать далее
Почему люди готовы платить $30 за конвертер картинок? Это ведь простой инструмент, но он решает реальные проблемы! Представьте, сколько времени и усилий мы тратим на поиск и использование бесплатных альтернатив, которые часто разочаровывают! Платя небольшую сумму, мы получаем качество, надежность и быстрое выполнение задачи. И така... Читать далее