🌟 II-Thought-RL-v0: Датасет для RL

Когда речь идет о машинном обучении и, в частности, о Reinforcement Learning (RL), в первую очередь стоит помнить, что как бы круто не звучал алгоритм — без качественного датасета он просто будет тянуться как дремучий медведь из-за недостатка ингредиентов. А что мы видим на практике? Датасеты, которые больше похожи на свалку, чем на аккуратный архив. Дублированные задачи, плохие формулировки, недостаточная полнота... Да и подбор популярных задач стремится к нулю – проверено на практике! Например, в OpenR1 были найдены 20 повторяющихся задач из массива Math-500, а General Reasoning радует стыдными "мусорными" данными, как будто кто-то решил устроить краудсорсинг для обсуждения кактусов вместо реальных вопросов. В итоге модели не учатся, а просто угадывают ответы, полагаясь на интуицию или простое везение.

Вот тут и появляется на горизонте II-Thought-RL-v0 — новенький датасет от Intelligent Internet, который как раз создан, чтобы избавиться от этих мешающих элементов. По сути, это не просто набор задач, а полноценные 340 тысяч заданий, сконструированных с акцентом на масштаб, качество и порядок в данных. Наверняка многие из вас уже сталкивались с ситуацией, когда необходимо направить исследование, но из-за нехватки чистых и точных данных возникает хаос, который только увеличивает время на выполнение задачи.

Каждый вопрос из этого датасета проходит свою «экспертизу» в несколько этапов. Сначала отсекаются дубликаты и все загрязненные данные. После этого на сцену выходят алгоритмы Gemini 2.0 Flash и Qwen-2.5-32B, которые вычищают неоднозначные или откровенно неправильные задачи. Никаких ошибок в формулировках, зависимостей от изображений или открытых вопросов: всё должно быть исключительно четким и ясным.

Что действительно выделяет II-Thought-RL-v0 среди других, так это внимание к верификации. Здесь не просто кидаются задачами в модель – математические вопросы проверяются с помощью Math-Verify, код запускается в изолированном окружении Sandbox Fusion, а медицинские задания оценены LLM-судьёй. Это как застраховать себя от нежелательных "взломов наград", когда модели предпочитают идти коротким путем, игнорируя логику.

И каков итог? Этот свежий датасет уже успел превзойти аналоги в тестах — модель с 1,5 миллиарда параметров, обученная на II-Thought-RL-v0, показала результаты на 3-5% лучше, чем DeepSeek-R1 в задачах AIME и LiveCodeBench. Неудивительно, ведь качество данных действительно играет решающую роль!

Но, как это обычно бывает, есть и ложка дёгтя: 70% данных всё еще сосредоточены в области математики и программирования, а вот медицина, финансы и инженерия остаются в сторонке с почти невидимым представлением. Надеюсь, создатели датасета не собираются останавливаться на достигнутом, потому что для создания моделей, способных учиться и рассуждать в реальных мультидисциплинарных сценариях, требуется больше разнообразия в наборах данных.

#AI #ML #LLM #RL #Dataset

II-Thought-RL-v0: качественный датасет для RL без компромиссов ver 0
II-Thought-RL-v0: качественный датасет для RL без компромиссов ver 0
Ширина: 2282 px
Высота: 768 px
Соотношение сторон.: 1141:384

Скачать
II-Thought-RL-v0: качественный датасет для RL без компромиссов ver 1
II-Thought-RL-v0: качественный датасет для RL без компромиссов ver 1
Ширина: 1000 px
Высота: 525 px
Соотношение сторон.: 40:21

Скачать
II-Thought-RL-v0: качественный датасет для RL без компромиссов ver 2
II-Thought-RL-v0: качественный датасет для RL без компромиссов ver 2
Ширина: 2560 px
Высота: 1920 px
Соотношение сторон.: 4:3

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться