AMD Instella: Революция в Языковой Модели AI!

🤩 AMD Instella: Революция в Миле Язык!

Друзья, вы просто не поверите, какие удивительные вещи происходят в мире технологий! 🌟 Позвольте представить вам Instella, совершенно уникальную и открытую языковую модель, которая была создана с нуля на новейшем оборудовании AMD! И вот что поразительно: она обладает огромными 3 миллиардами параметров и представляет собой настоящий прорыв в области обработки естественного языка.

💻 Открытый подход и мощные технологии

Instella - это не просто еще одна языковая модель. Это ЛУЧШЕ - она полностью опенсорсная и обучена на современных графических процессорах AMD Instinct MI300X. Так какая же у неё мощность? Она превосходит множество существующих LLM (Large Language Models) сравнимого размера и даже показывает достойные результаты в сравнении с такими гигантами, как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B. Скажу вам, это действительно впечатляет!

На разрабоке Instella AMD смогла опираться на свой предыдущий опыт работы с OLMo. Используя свои знания, компанию смогла создать нечто более масштабное и эффективное. Обучение происходило на 128 GPU, что само по себе уже звучит как что-то грандиозное, не так ли? Интересно, что модель обучалась на невероятных 4.15 трлн. токенов! Мысли о таких масштабах заставляют сердце трепетать!

🛠️ Этапы обучения

Процесс обучения модели был разбит на 4 четких этапа, где каждый следующий этап добавлял новые возможности и участвовать в увлекательном путешествии с языком. Давайте рассмотрим детали:

Первый этап: Претрейн с использованием 4 трлн. токенов из набора данных OLMoE-mix-0924! Здесь вы найдёте всё: код, академические тексты и даже математику!
Второй этап: Модель обрабатывала 57 млрд. токенов из двух датасетов - Dolmino-Mix-1124 и SmolLM-Corpus. Python-edu, вы на связи?
Третий этап: Погружаем модель в процесс SFT с аудиторией в 8.9 млрд. токенов текстовых пар "инструкция-ответ".
Четвертый этап: Делаем финальные штрихи, соответствуя предпочтениям человека, с использованием 0.76 млрд. токенов.

Технические характеристики модели тоже впечатляют! Instella имеет 36 слоев, каждый из которых оснащен 32 головками внимания и поддерживает последовательность до 4096 токенов. Это просто невероятно!

🚀 Релиз и лицензирование

Теперь, что касается самого релиза, он тоже вызывает восторг и радость! Модель поставляется с несколькими вариантами, включая:

🟢 Instella-3B-Stage1 - ваш начальный чекпоинт после первого этапа.
🟢 Instella-3B - уже более продвинутая версия после второго этапа учения.
🟢 Instella-3B-SFT - такая интересная версия после SFT.
🟢 Instella-3B-Instruct - финал, который просто не оставляет шансов другим языковым моделям.
🟠 Instella-GSM8K-synthetic - набор данных, который стал основой для второго этапа обучения.

Научно-исследовательская лицензия ReasearchRAIL License открывает двери для патентов и разработок, что, как я считаю, только благоприятно скажется на научном сообществе!

🔗 Каждый шаг на пути к прогрессу

Интересно, что ко всему этому они добавили код для трейна и инференса, и, как будто этого было недостаточно, они разместили эти ценности на GitHub и HF коллекциях! Это просто запредельно круто, и мне не терпится опробовать все это в своем проекте!

Если вы, как и я, хотите оставаться в курсе последних новинок мира AI, следует обязательно следить за #AI, #ML, #LLM, #RoCM и #AMD!

В общем, мобильные технологические гиганты сделали шаг вперед,