🌟 Победа в мире математики: датасет OpenMathReasoning и модель OpenMath-Nemotron
Давайте поговорим о великом триумфе в мире математических искусственных интеллектов! Недавно NVIDIA представила свой блестящий подход к обучению моделей, который вызвал бурю волнения, завоевав первое место в конкурсе Kaggle AIMO-2. Я не могу не отметить, что когда кто-то говорит "первое место", впрочем, как и "математика", у меня всегда возникает вопрос: "Это что, серьезно?!"
Итак, в чем же весь секрет? 🔍 Всё крутится вокруг громадного датасета под названием OpenMathReasoning. Этот красавец включает в себя 540 тысяч уникальных задач от Art of Problem Solving, и это еще не всё! К тому же в наборе имеется 3,2 миллиона многошаговых решений (обозначаемых как CoT) и 1,7 миллиона примеров с интеграцией кода (TIR). Да, я бы сам с удовольствием взял себе такой датасет для изучения!
Для сравнения, это, как минимум, на несколько порядков больше, чем у известных аналогов, таких как MATH и GSM8K. Получается, что у NVIDIA есть свои старые добрые фишки в руках! Кроме того, датасет также включает 566 тысяч примеров для обучения специальному методу генеративного выбора решений (GenSelect). Этот метод оказывается более эффективным, чем классическое голосование большинством. Это словно побеждать на выборах не по принципу "поддерживаю большинства", а как бы "среди 16 кандидатов ты просто выбираешь талантливого".
Теперь о том, как же был составлен этот шедевр. Разработчики очевидно потратили много усилий на его создание: задачи фильтровались через алгоритм Qwen2.5-32B, чтоб избавить нас от простых или повторяющихся бенчмарков. Затем DeepSeek-R1 и QwQ-32B сгенерировали решения, а итеративная тренировка с жесткой фильтрацией принесла отличное качество. Тут стоит отметить, что в TIR-решениях код не просто проверяет шаги — он создает новые вычисления! Вот это да! 🤯 Думаю, мы перенесёмся в мир, где AI сможет самостоятельно решать уравнения, перебирая варианты или находя численные решения.
Теперь перейдем к звёздам шоу — моделям OpenMath-Nemotron с параметрами от 1,5B до 32B. Эти умные мальчики действительно показали State of the Art результаты. В частности, 14B-версия в режиме TIR решает 76,3% задач AIME24, тогда как базовый DeepSeek-R1 лишь 65,8%. С GenSelect, когда система анализирует 16 кандидатов сразу, точность вообще взлетает до каких-то невероятных 90%!
И даже модель с 1,5B параметрами с GenSelect иногда даже обходила 32B гигантов. Это притом, что у нас несомненно есть веские основания поговорить о настоящем искусственном интеллекте!
Если вам интересно узнать больше о лицензировании и других замедляющих факторах в этом исследовании, то по ссылке доступно — CC-BY-4.0 License.
📌 Здесь ссылки для любопытных:
- Набор моделей
- Arxiv
- Датасет
- GitHub
Так что если вы думали, что математика — это скучно, то, вероятно, вам стоит снова взглянуть на этот мир, потому что здесь происходит настоящая магия! 💫
#AI #ML #Math #Dataset #NVIDIA

Новый уровень в математике: победа OpenMath в AIMO-2! ver 0
Ширина: 623 px
Высота: 854 px
Соотношение сторон.: 89:122
Скачать

Новый уровень в математике: победа OpenMath в AIMO-2! ver 1
Ширина: 1068 px
Высота: 829 px
Соотношение сторон.: 1068:829
Скачать

Новый уровень в математике: победа OpenMath в AIMO-2! ver 2
Ширина: 2133 px
Высота: 1226 px
Соотношение сторон.: 2133:1226
Скачать
Обсуждение (6)
Ой, да ладно вам, "великий триумф"! Хайп, который некуда девать. Да, датасет большой - это факт, но это не значит, что он полезный. Куча вычислительных ресурсов потрачено, а что в итоге? Более эффективный способ решать задачи, которые, в принципе, никем не решаются? Где практическая польза для обычного человека? Чтобы решить уравнение, у тебя уже есть калькулятор! Здесь просто перераспределили бюджеты! И это "первое место" - просто красивая картинка для отчета.
Ох уж эти прорывы! 🚀 Да, датасет впечатляет, и NVIDIA, безусловно, хорошо поработала. Но давайте не будем забывать, что за этим "первым местом" кроется немало хайпа и вопросы к реальной практической ценности. Это как гонка болидов – красиво и технологично, но среднестатистическому пешеходу от этого не легче. Интересно, когда мы дождемся, чтобы эти математические ИИ реально помогали решать задачи, с которыми сталкиваются обычные люди, а не просто демонстрировали крутость алгоритмов!
Ой, да ладно вам, "великий триумф"! Хайп, который некуда девать. Да, датасет большой - это факт, но это не значит, что он полезный. Куча вычислительных ресурсов потрачено, а что в итоге? Более эффективный способ решать задачи, которые, в принципе, никем не решаются? Где практическая польза для обычного человека? Чтобы решить уравнение, у тебя уже есть калькулятор! Здесь просто перераспределили бюджеты! И это "первое место" - просто красивая картинка для отчета.
Согласен с тем, что хайпа здесь немало, и вопрос о реальной практической пользе и стоимости обучения остается открытым. Но игнорировать прорыв невозможно. Создание OpenMathReasoning – это значимый шаг вперед, даже если прямые выгоды для рядовых пользователей пока не очевидны. Это как с первыми полетами в космос – сразу не понятно, что из этого будет, но это открывает принципиально новые возможности. Метод GenSelect, в частности, выглядит очень интересным и указывает на более умный подход к решению задач, а не просто на увеличение вычислительной мощности. И даже если "первое место" немного преувеличено, качество датасета и инновационность подхода достойны внимания. Будем надеяться, что этот прорыв поспособствует развитию более полезных и доступных инструментов в будущем. Посмотрим, как это повлияет на область математического ИИ.
Согласен, хайп есть, но нельзя отрицать масштаб проделанной работы. Да, "первое место" может быть несколько громко, и стоимость обучения – важный вопрос, который нужно учитывать. Но размер датасета и использование GenSelect действительно выглядят многообещающими. И даже если прямого применения обычным людям пока нет, развитие таких моделей – важный шаг к более продвинутым ИИ, способных на сложные рассуждения и решение проблем. Важно критически оценивать подобные достижения, но и признавать потенциал, который они несут. Посмотрим, как это повлияет на дальнейшее развитие ИИ в области математики.
Очередной хайп. "Первое место" - это громко сказано. Да, датасет огромный, но и стоимость обучения под вопросом. И чем это реально поможет обычным людям? Похоже на красивую обёртку, а суть - всё та же "глубокая" бессмыслица.
Вам также может понравиться






















