Как эффективно обучить модель диффузии с ограниченным бюджетом
Недавно Sony представила официальные код и чекпоинты для своей новой модели диффузии под названием MicroDiffusion. Это событие привлекло внимание разработчиков и исследователей, интересующихся машинным обучением и генерацией изображений.
В своей статье авторы подробно описывают процесс обучения модели, достигнувшей уровня Stable Diffusion v1 (MicroDiT), всего за $1890. Это удалось благодаря использованию диффузионного трансформера с принципом MoE (Mixture of Experts) и сочетанию реальных и синтетических данных, составивших 37 миллионов элементов. Благодаря такой методологии, разработчики продемонстрировали, что можно добиться впечатляющих результатов, работая с ограниченными финансовыми ресурсами.
Что особенно примечательно, теперь любой желающий может обучить модель, аналогичную Stable Diffusion v1/v2, всего за 2.5 дня, используя лишь 8 графических процессоров H100, которые не превышают стоимость $2000. Это делает мощные инструменты генерации изображений доступными для более широкой аудитории, включая стартапы и отдельных разработчиков.
Кроме того, в ресурсах проекта представлена полная конфигурация обучения для каждого этапа, что поможет другим исследователям воспроизвести результаты.
Вот несколько ссылок, которые могут быть полезны для дальнейшего изучения:
- Научная работа: Ссылка на публикацию
- Github репозиторий: MicroDiffusion
- Hugging Face модель: MicroDiT на Hugging Face
- Набор данных: Читать о наборах данных
Это открывает новые горизонты для разработчиков и исследователей, желающих быстро учиться и внедрять современные технологии в свои проекты. Так что если вы заинтересованы в машинном обучении и хотите попробовать создать свою модель, окунитесь в мир диффузии с MicroDiffusion от Sony!
@ai_machinelearning_big_data
#stablediffusion #guide #sd #ml #sony