📌 LADDER: как научить LLM решать сложные задачи без учителя
Tufa Labs составила пейпер о революционном фреймворке LADDER, который открывает новые горизонты для языковых моделей. Теперь они могут сами прокладывать путь в мире сложных задач, учась так, как это делает человек!
Эта технология несколько абсурдно напоминает детский сад: ИИ разбивает сложные проблемы на простенькие задачки, словно создаёт учебный план для своего собственного образовательного процесса. Это уже не просто о том, как научить модель решать задачи, а о том, как сделать это в максимально комфортной и естественной для ИИ манере. Например, представьте себе модель Llama 3.2 с 3 миллиардами параметров, которая сначала справлялась лишь с жалкими 1% интегралов на уровне студента, а после обучения по методу LADDER ворвалась в атмосферу успеха, увеличив свою точность до колоссальных 82%!
Если вы думали, что это только начало, то для вас есть сюрприз! Результаты LADDER на MIT Integration Bee — настоящая бомба. Эта ежегодная олимпиада по интегральному исчислению продемонстрировала, что модель Qwen2.5 (с 7 миллиардами параметров), улучшенная с помощью LADDER, набрала 73% правильных ответов, что позволило ей обойти даже шикарный GPT-4 (который скромненько остановился на 42%) и многих студентов. Но и это ещё не всё: благодаря чему-то под названием TTRL (Test-Time Reinforcement Learning), которая является своего рода «микрообучением», модель выжала из себя 90% правильных ответов. О да, это намного больше, чем некоторые из нас получают в студенческие годы!
Так как же все это работает? В основе LADDER лежит принцип рекурсивной декомпозиции. Модель берет за сложную задачу и разбивает ее на мелкие шажки, как будто пытается собрать пирамиду не из блоков, а из идей. При столкновении с хитрым интегралом ИИ не теряет самообладания и создает упрощенные версии задачи: убирает дробные коэффициенты, снижает степень полинома, а иногда даже заменяет сложные функции на более простые. И каждый этот новый вариант — это как очередная ступенька к вершине, где расцветает решение целевой задачи.
Работа всего фреймворка проходит в три стадия:
Генерация "дерева вариантов": На этом этапе модель создает целую кучу модификаций исходной задачи и группирует их по шкале сложности, как настоящий математический шеф-повар.
Верификация: Тут каждая новая идея проверяется на прочность через численные методы. Это похоже на то, как ученые тестируют свои гипотезы в лаборатории.
Обучение с подкреплением: И наконец, система поощряет успешные решения и наказывает за ошибки. Это действительно напоминает систему школьных оценок, только более изощрённо!
А про TTRL я, конечно, не мог не упомянуть. Этот метод позволяет моделям проводить быструю адаптацию во время тестирования, словно они учат уроки на лету, подбирая наиболее удачные пути к решению прямо в ходе выполнения задачи. В общем, как вы видите, LADDER делает ИИ не просто учениками, а настоящими университетами!
Итак, во вселенной ИИ, где каждая задача становится вызовом, LADDER поднимает ставки и, похоже, меняет правила игры. Кто знает, возможно, в будущем наши модели станут настольными учителями, а не только помощниками. Так что оставьте свои "штрафнЫе" таблицы и готовьте методы обучения — уровень интеллекта, похоже, собирается взлететь до небес!

LADDER: Как LLM Учится Решать Сложные Задачи Самостоятельно ver 0
Ширина: 604 px
Высота: 426 px
Соотношение сторон.: 302:213
Скачать

LADDER: Как LLM Учится Решать Сложные Задачи Самостоятельно ver 1
Ширина: 1261 px
Высота: 591 px
Соотношение сторон.: 1261:591
Скачать

LADDER: Как LLM Учится Решать Сложные Задачи Самостоятельно ver 2
Ширина: 1621 px
Высота: 568 px
Соотношение сторон.: 1621:568
Скачать

LADDER: Как LLM Учится Решать Сложные Задачи Самостоятельно ver 3
Ширина: 1581 px
Высота: 372 px
Соотношение сторон.: 17:4
Скачать
Вам также может понравиться




















