Углубляемся в мир претрейна: Т-банк активно наращивает свои языковые мышцы! 💪🚀
Только что на нашем любимом Хабре появился свежий техрепорт, который заставил меня пощекотать вас, друзья мои! На этот раз Т-банк вывел на свет свою новинку — русскоязычные LLM модели T-lite и T-pro, а увлекательные детали их создания могут удивить даже самых искушенных читателей.
В то время как другие команды, порой, лишь скупятся на описания своих методов — будто прячут секреты в чемодане, ребята из Т-банка раскрыли все карты! Они наглядно продемонстрировали весь процесс от выбора базовой модели до экспериментов, которые звучат так, словно над ними работали не просто разработчики, а настоящие маги искусственного интеллекта. 🧙♂️✨
Для начала, вместо обучения с нуля они взяли под опеку модель Qwen2.5 — и знаете, я тоже считаю, что это одно из лучших решений для упрощенной тренировки своих моделей! Это как выбрать хорошую основу для пиццы: основа — важна, но начинка тоже играет свою роль. Так вот, Т-банк не разочаровал и продолжил претрейн на русском языке.
Процесс претрейна состоял из двух захватывающих стадий. Первую стадию они выплатывали с бюджетом в 100 миллиардов токенов, с небольшими капельками английского — всего 10%! Получается, они целиком погрузились в наш родной язык. Знаете ли вы, что целых 25% из этого датасета составил код? Это, друзья мои, похоже на тонкий намек на то, что кодовые данные действительно разжигают способности к рассуждению.
Затем наступила вторая стадия, где они сосредоточились на высококачественных данных, потратив еще 40 миллиардов токенов на инстракт датасеты. О, как просто нельзя не служить FineWeb-Edu! Они отфильтровали свои данные по образовательной ценности, и только 6% веб-контента удостоились высших оценок. Это истинная забота о качестве!
Разговоры о мощностях не будут полными без упоминания о том, что ребята обучались на 256 H100. И знаете, что интересно? По результатам бенчмарков модели продемонстрировали заметный прирост в решении русскоязычных задач. Особенно впечатляющие результаты были в направлениях ЕГЭ, RWSD и математических рассуждениях! Они действительно коснулись живой сути русского языка.
Ну а о деталях посттрейна (SFT и alignment) нам обещают рассказать в следующем посте. Свежая доза информации гарантирована! Так что давайте все вместе прыгнем в этот захватывающий мир языковых моделей и подождем, что же они приготовят для нас в следующий раз!
И помните, друзья, что искусственный интеллект — это не просто цифры и алгоритмы, это мир великих возможностей! 🤖🚀
ТехРепорт можно найти на Хабре: ТехРепорт
@ai_newz
Вам также может понравиться





















