Новый набор языковых моделей Deep Cogito: открытый код и мощь!

🌟 Deep Cogito представила новый набор языковых моделей с открытым исходным кодом

Итак, друзья, у нас на горизонте очередная порция технологического волшебства! Deep Cogito решилась на смелый шаг и представила целую серию языковых моделей с открытым исходным кодом. Перед нами теперь семейство моделей с параметрами от 3B до внушительных 70B! Да, правильный акцент здесь на слове «внушительных». Прикиньте, сколько вычислительных мощностей это требует!

Разработчики уверяют нас, что их модели «покоряют» все аналогичные открытые решения, такие как LLaMA, DeepSeek и Qwen, на большинстве стандартных бенчмарков. Например, их 70B-модель не только соперничает, но даже превосходит новую 109B (да, они даже не боятся этого числа!) MoE-модель Llama 4. Как? Внешний размер действительно не всегда имеет значение!

Теперь, давайте немного покопаемся в эту загадочную аббревиатуру IDA — Iterated Distillation and Amplification. На слуху, как название файла альбома коллектива, который вы всегда хотели услышать, но так и не включили. Однако, на самом деле, она охватывает процесс, в котором модели «развивают» свои способности, тратя много ресурсов на нахождение решений через «цепочки размышлений» (или CoT, если вам привычнее это сокращение). И затем они «дистиллируют» свои решения обратно в параметры. Эта замысловатая система позволяет улучшать модель с каждой итерацией, благодаря чему она становится не только умнее, но и более эффективной. Это уже не просто «покемоны» в мире ИИ, это настоящий интелектуальный кроссфит!

А теперь по поводу режимов работы. У Deep Cogito прямо сразу два режима: стандартный (где всё пускается в деле) и «рефлексивный» — это фишка, позволяющая системе сначала подумать, прежде чем ответить. Конечно, это больше похоже на то, как запрашивать мнения у старшего коллеги, а не у младшего стажера. Эта параллель между Claude 3.7 и их разработками явно не случайна.

Что касается применения, модели оптимизированы для программирования, вызовов функций и агентских сценариев. Интересно, что разработчики решили не делать акцент на CoT, утверждая, что короткие, лаконичные шаги в реальных задачах работают куда лучше. Похоже, они понимают, что иногда меньше значит больше — мудрая тактика для нестабильного мира технологий.

А теперь о будущем: через несколько месяцев нас ждут варианты на 109B, 400B и впечатляющий 671B параметров. С учетом этих прогрессов, нам стоит ожидать архитектурные вариации с MoE, что точно взорвет всем мозг (в хорошем смысле, конечно)!

Модели уже доступны для скачивания на таких платформах, как Hugging Face и Ollama, а также через API Fireworks AI/Together AI. Так что, если вы хотите продвинуться в мир ИИ или просто немного поэкспериментировать — у вас есть все шансы сделать это, не выходя из домашнего офиса! Желаю удачи в изучении новинок!