🤩 AMD Instella: Революция в Миле Язык!

Друзья, вы просто не поверите, какие удивительные вещи происходят в мире технологий! 🌟 Позвольте представить вам Instella, совершенно уникальную и открытую языковую модель, которая была создана с нуля на новейшем оборудовании AMD! И вот что поразительно: она обладает огромными 3 миллиардами параметров и представляет собой настоящий прорыв в области обработки естественного языка.

💻 Открытый подход и мощные технологии

Instella - это не просто еще одна языковая модель. Это ЛУЧШЕ - она полностью опенсорсная и обучена на современных графических процессорах AMD Instinct MI300X. Так какая же у неё мощность? Она превосходит множество существующих LLM (Large Language Models) сравнимого размера и даже показывает достойные результаты в сравнении с такими гигантами, как Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B. Скажу вам, это действительно впечатляет!

На разрабоке Instella AMD смогла опираться на свой предыдущий опыт работы с OLMo. Используя свои знания, компанию смогла создать нечто более масштабное и эффективное. Обучение происходило на 128 GPU, что само по себе уже звучит как что-то грандиозное, не так ли? Интересно, что модель обучалась на невероятных 4.15 трлн. токенов! Мысли о таких масштабах заставляют сердце трепетать!

🛠️ Этапы обучения

Процесс обучения модели был разбит на 4 четких этапа, где каждый следующий этап добавлял новые возможности и участвовать в увлекательном путешествии с языком. Давайте рассмотрим детали:

  1. Первый этап: Претрейн с использованием 4 трлн. токенов из набора данных OLMoE-mix-0924! Здесь вы найдёте всё: код, академические тексты и даже математику!
  2. Второй этап: Модель обрабатывала 57 млрд. токенов из двух датасетов - Dolmino-Mix-1124 и SmolLM-Corpus. Python-edu, вы на связи?
  3. Третий этап: Погружаем модель в процесс SFT с аудиторией в 8.9 млрд. токенов текстовых пар "инструкция-ответ".
  4. Четвертый этап: Делаем финальные штрихи, соответствуя предпочтениям человека, с использованием 0.76 млрд. токенов.

Технические характеристики модели тоже впечатляют! Instella имеет 36 слоев, каждый из которых оснащен 32 головками внимания и поддерживает последовательность до 4096 токенов. Это просто невероятно!

🚀 Релиз и лицензирование

Теперь, что касается самого релиза, он тоже вызывает восторг и радость! Модель поставляется с несколькими вариантами, включая:

  • 🟢 Instella-3B-Stage1 - ваш начальный чекпоинт после первого этапа.
  • 🟢 Instella-3B - уже более продвинутая версия после второго этапа учения.
  • 🟢 Instella-3B-SFT - такая интересная версия после SFT.
  • 🟢 Instella-3B-Instruct - финал, который просто не оставляет шансов другим языковым моделям.
  • 🟠 Instella-GSM8K-synthetic - набор данных, который стал основой для второго этапа обучения.

Научно-исследовательская лицензия ReasearchRAIL License открывает двери для патентов и разработок, что, как я считаю, только благоприятно скажется на научном сообществе!

🔗 Каждый шаг на пути к прогрессу

Интересно, что ко всему этому они добавили код для трейна и инференса, и, как будто этого было недостаточно, они разместили эти ценности на GitHub и HF коллекциях! Это просто запредельно круто, и мне не терпится опробовать все это в своем проекте!

Если вы, как и я, хотите оставаться в курсе последних новинок мира AI, следует обязательно следить за #AI, #ML, #LLM, #RoCM и #AMD!

В общем, мобильные технологические гиганты сделали шаг вперед,

AMD Instella: Революция в мире открытых языковых моделей! ver 0
AMD Instella: Революция в мире открытых языковых моделей! ver 0
Ширина: 1205 px
Высота: 964 px
Соотношение сторон.: 5:4

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Ура! Модели Qwen3 теперь поддерживают целых 119 языков и диалектов! Это просто фантастика! Представьте, сколько новых возможностей открывается благодаря такому разнообразию! Каждый язык — это уникальный мир, полон культуры и эмоций. Теперь мы можем общаться и понимать друг друга, независимо от того, где мы находимся. Это невероятно... Читать далее
Анна
Следить за трендами в разработке стало проще благодаря удобным каналам для подписки. В условиях стремительного развития технологий важно быть в курсе последних новостей и обновлений. Мы собрали коллекцию Telegram-каналов, которые помогут вам оставаться на гребне волны в мире разработки. Подписывайтесь на эти ресурсы, чтобы быть в ч... Читать далее
Привет, дружище! Хочешь оставаться на гребне волны в мире разработки? Тогда ты попал в нужное место! Узнай, как легко и быстро следить за последними трендами и новыми технологиями. Я поделюсь с тобой крутыми каналами, полезными советами и свежими новостями, которые помогут тебе не отстать от времени! Готовься прокачать свои навыки... Читать далее
Привет, друзья! 🎉 У меня для вас потрясающая новость! Вы можете получать свежие обновления о разработке на своем языке программирования! Это действительно легкий и удобный способ быть в курсе всех новых тенденций и технологий. Больше не нужно искать информацию по кусочкам — все самое важное приходит к вам автоматически! 📩 Не упус... Читать далее