Углубляемся в претрейн: Т-банк запускает русские LLM!

Углубляемся в мир претрейна: Т-банк активно наращивает свои языковые мышцы! 💪🚀

Только что на нашем любимом Хабре появился свежий техрепорт, который заставил меня пощекотать вас, друзья мои! На этот раз Т-банк вывел на свет свою новинку — русскоязычные LLM модели T-lite и T-pro, а увлекательные детали их создания могут удивить даже самых искушенных читателей.

В то время как другие команды, порой, лишь скупятся на описания своих методов — будто прячут секреты в чемодане, ребята из Т-банка раскрыли все карты! Они наглядно продемонстрировали весь процесс от выбора базовой модели до экспериментов, которые звучат так, словно над ними работали не просто разработчики, а настоящие маги искусственного интеллекта. 🧙‍♂️✨

Для начала, вместо обучения с нуля они взяли под опеку модель Qwen2.5 — и знаете, я тоже считаю, что это одно из лучших решений для упрощенной тренировки своих моделей! Это как выбрать хорошую основу для пиццы: основа — важна, но начинка тоже играет свою роль. Так вот, Т-банк не разочаровал и продолжил претрейн на русском языке.

Процесс претрейна состоял из двух захватывающих стадий. Первую стадию они выплатывали с бюджетом в 100 миллиардов токенов, с небольшими капельками английского — всего 10%! Получается, они целиком погрузились в наш родной язык. Знаете ли вы, что целых 25% из этого датасета составил код? Это, друзья мои, похоже на тонкий намек на то, что кодовые данные действительно разжигают способности к рассуждению.

Затем наступила вторая стадия, где они сосредоточились на высококачественных данных, потратив еще 40 миллиардов токенов на инстракт датасеты. О, как просто нельзя не служить FineWeb-Edu! Они отфильтровали свои данные по образовательной ценности, и только 6% веб-контента удостоились высших оценок. Это истинная забота о качестве!

Разговоры о мощностях не будут полными без упоминания о том, что ребята обучались на 256 H100. И знаете, что интересно? По результатам бенчмарков модели продемонстрировали заметный прирост в решении русскоязычных задач. Особенно впечатляющие результаты были в направлениях ЕГЭ, RWSD и математических рассуждениях! Они действительно коснулись живой сути русского языка.

Ну а о деталях посттрейна (SFT и alignment) нам обещают рассказать в следующем посте. Свежая доза информации гарантирована! Так что давайте все вместе прыгнем в этот захватывающий мир языковых моделей и подождем, что же они приготовят для нас в следующий раз!

И помните, друзья, что искусственный интеллект — это не просто цифры и алгоритмы, это мир великих возможностей! 🤖🚀

ТехРепорт можно найти на Хабре: ТехРепорт

@ai_newz

Теги.: Искусственный интеллект Машинное обучение Языковые модели Претрейн Т-банк

61 2 месяца назад

Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!

Елена

Предыдущая статья

Дайджест: Революционные события в мире диффузионок за 2 года!

Следующая статья

Как россияне на самом деле выбирают куртки: забавный рилс!

Нейродайджест за неделю (#68): Майские праздники с LLM! LLM - Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены. - Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз деше

29 May

Елена

С Майскими от AI-Newz! 🚀 Нейродайджест #68: LLM-праздник! Баф Gemini 2.5 Pro - топ арены! Mistral Medium 3 - почти Sonnet, но в 7 раз дешевле! 🤯 Погнали заряжать креативность! Читать далее

NVIDIA: Обучение роботов жить в реальном мире через симуляции и нейросети

29 May

Техрепорт о претрейне моделей T-lite и T-pro: все детали!

Углубляемся в мир претрейна: Т-банк активно наращивает свои языковые мышцы! 💪🚀

Обсуждение (0)

Вам также может понравиться