🤩 AMD Instella: Революция в Миле Язык!
Друзья, вы просто не поверите, какие удивительные вещи происходят в мире технологий! 🌟 Позвольте представить вам Instella, совершенно уникальную и открытую языковую модель, которая была создана с нуля на новейшем оборудовании AMD! И вот что поразительно: она обладает огромными 3 миллиардами параметров и представляет собой настоящий прорыв в области обработки естественного языка.
💻 Открытый подход и мощные технологии
Instella - это не просто еще одна языковая модель. Это ЛУЧШЕ - она полностью опенсорсная и обучена на современных графических процессорах AMD Instinct MI300X. Так какая же у неё мощность? Она превосходит множество существующих LLM (Large Language Models) сравнимого размера и даже показывает достойные результаты в сравнении с такими гигантами, как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B. Скажу вам, это действительно впечатляет!
На разрабоке Instella AMD смогла опираться на свой предыдущий опыт работы с OLMo. Используя свои знания, компанию смогла создать нечто более масштабное и эффективное. Обучение происходило на 128 GPU, что само по себе уже звучит как что-то грандиозное, не так ли? Интересно, что модель обучалась на невероятных 4.15 трлн. токенов! Мысли о таких масштабах заставляют сердце трепетать!
🛠️ Этапы обучения
Процесс обучения модели был разбит на 4 четких этапа, где каждый следующий этап добавлял новые возможности и участвовать в увлекательном путешествии с языком. Давайте рассмотрим детали:
- Первый этап: Претрейн с использованием 4 трлн. токенов из набора данных OLMoE-mix-0924! Здесь вы найдёте всё: код, академические тексты и даже математику!
- Второй этап: Модель обрабатывала 57 млрд. токенов из двух датасетов - Dolmino-Mix-1124 и SmolLM-Corpus. Python-edu, вы на связи?
- Третий этап: Погружаем модель в процесс SFT с аудиторией в 8.9 млрд. токенов текстовых пар "инструкция-ответ".
- Четвертый этап: Делаем финальные штрихи, соответствуя предпочтениям человека, с использованием 0.76 млрд. токенов.
Технические характеристики модели тоже впечатляют! Instella имеет 36 слоев, каждый из которых оснащен 32 головками внимания и поддерживает последовательность до 4096 токенов. Это просто невероятно!
🚀 Релиз и лицензирование
Теперь, что касается самого релиза, он тоже вызывает восторг и радость! Модель поставляется с несколькими вариантами, включая:
- 🟢 Instella-3B-Stage1 - ваш начальный чекпоинт после первого этапа.
- 🟢 Instella-3B - уже более продвинутая версия после второго этапа учения.
- 🟢 Instella-3B-SFT - такая интересная версия после SFT.
- 🟢 Instella-3B-Instruct - финал, который просто не оставляет шансов другим языковым моделям.
- 🟠 Instella-GSM8K-synthetic - набор данных, который стал основой для второго этапа обучения.
Научно-исследовательская лицензия ReasearchRAIL License открывает двери для патентов и разработок, что, как я считаю, только благоприятно скажется на научном сообществе!
🔗 Каждый шаг на пути к прогрессу
Интересно, что ко всему этому они добавили код для трейна и инференса, и, как будто этого было недостаточно, они разместили эти ценности на GitHub и HF коллекциях! Это просто запредельно круто, и мне не терпится опробовать все это в своем проекте!
Если вы, как и я, хотите оставаться в курсе последних новинок мира AI, следует обязательно следить за #AI, #ML, #LLM, #RoCM и #AMD!
В общем, мобильные технологические гиганты сделали шаг вперед,

AMD Instella: Революция в мире открытых языковых моделей! ver 0
Ширина: 1205 px
Высота: 964 px
Соотношение сторон.: 5:4
Скачать
Вам также может понравиться





















