Углубляемся в мир претрейна: Т-банк активно наращивает свои языковые мышцы! 💪🚀

Только что на нашем любимом Хабре появился свежий техрепорт, который заставил меня пощекотать вас, друзья мои! На этот раз Т-банк вывел на свет свою новинку — русскоязычные LLM модели T-lite и T-pro, а увлекательные детали их создания могут удивить даже самых искушенных читателей.

В то время как другие команды, порой, лишь скупятся на описания своих методов — будто прячут секреты в чемодане, ребята из Т-банка раскрыли все карты! Они наглядно продемонстрировали весь процесс от выбора базовой модели до экспериментов, которые звучат так, словно над ними работали не просто разработчики, а настоящие маги искусственного интеллекта. 🧙‍♂️✨

Для начала, вместо обучения с нуля они взяли под опеку модель Qwen2.5 — и знаете, я тоже считаю, что это одно из лучших решений для упрощенной тренировки своих моделей! Это как выбрать хорошую основу для пиццы: основа — важна, но начинка тоже играет свою роль. Так вот, Т-банк не разочаровал и продолжил претрейн на русском языке.

Процесс претрейна состоял из двух захватывающих стадий. Первую стадию они выплатывали с бюджетом в 100 миллиардов токенов, с небольшими капельками английского — всего 10%! Получается, они целиком погрузились в наш родной язык. Знаете ли вы, что целых 25% из этого датасета составил код? Это, друзья мои, похоже на тонкий намек на то, что кодовые данные действительно разжигают способности к рассуждению.

Затем наступила вторая стадия, где они сосредоточились на высококачественных данных, потратив еще 40 миллиардов токенов на инстракт датасеты. О, как просто нельзя не служить FineWeb-Edu! Они отфильтровали свои данные по образовательной ценности, и только 6% веб-контента удостоились высших оценок. Это истинная забота о качестве!

Разговоры о мощностях не будут полными без упоминания о том, что ребята обучались на 256 H100. И знаете, что интересно? По результатам бенчмарков модели продемонстрировали заметный прирост в решении русскоязычных задач. Особенно впечатляющие результаты были в направлениях ЕГЭ, RWSD и математических рассуждениях! Они действительно коснулись живой сути русского языка.

Ну а о деталях посттрейна (SFT и alignment) нам обещают рассказать в следующем посте. Свежая доза информации гарантирована! Так что давайте все вместе прыгнем в этот захватывающий мир языковых моделей и подождем, что же они приготовят для нас в следующий раз!

И помните, друзья, что искусственный интеллект — это не просто цифры и алгоритмы, это мир великих возможностей! 🤖🚀

ТехРепорт можно найти на Хабре: ТехРепорт

@ai_newz



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Вы не поверите, но Япония снова удивила мир своими невероятными технологиями! На этот раз это не просто игрушка, а настоящая революция в мире верховой езды! Японская компания Kawasaki представила потрясающего робота Corleo, который способен не только имитировать движения лошади, но и поддерживать rider в процессе обучения. Это неве... Читать далее
Сенсация! Ура! Новенький отчет AI Index 2025 уже в нашем распоряжении! 🌟 Это потрясающее событие, которое открывает перед нами двери в мир самых свежих данных и тенденций в области искусственного интеллекта. В отчет вошли уникальные исследования, впечатляющие аналитические выводы и прогнозы, которые перевернут ваше представление о... Читать далее