Distill-Any-Depth: Революционный Подход к Оценке Глубины Сцены по Одному Изображению

Метод Distill-Any-Depth представляет собой прорыв в области монокулярной оценки глубины, который сочетает в себе передовые техники кросс-контекстной дистилляции и мульти-учительского обучения. Этот подход позволяет достигать высокой точности в определении расстояний до объектов, используя лишь одно RGB-изображение. В центре внимания — модели такие как DPT, MiDaS и DepthAnythingv2, которые обучаются на псевдо-метках, созданных более мощными учительскими моделями, такими как Genpercept и DepthAnythingv2.

Важность Distill-Any-Depth для Современных Технологий

Метод не просто улучшает существующие алгоритмы, но и устанавливает новый стандарт для определение глубины, что делает его крайне актуальным в таких сферах, как автономный транспорт и решения дополненной реальности. Это открывает двери для быстрого создания высокоточных 3D-карт, необходимых для навигации, а также для повышения реалистичности виртуальных миров посредством детализированного анализа пространственной структуры.

Энергетическая эффективность этого метода также заслуживает внимания: обучение моделей компьютерного зрения с использованием Distill-Any-Depth возможно даже с одной лишь видеокартой NVIDIA V100, что делает эту технологию доступной для широкого круга разработчиков.

Основные Принципы и Архитектура Distill-Any-Depth

Ключевой компонент метода — кросс-контекстная дистилляция, которая включает два основных сценария:

  • Shared-Context Distillation: как модель-учитель, так и модель-ученик обучаются на одинаковых фрагментах одного изображения, что позволяет обмениваться наиболее важными деталями.
  • Local-Global Distillation: модель-учитель изучает локальные фрагменты изображения, в то время как модель-ученик делает предсказания глубины для всей сцены, обеспечивая согласованность на глобальном уровне.

Эксперименты с участием 50 000 изображений из набора SA-1B с разрешением 560×560 продемонстрировали эффективность подхода. Использование псевдо-меток от Genpercept и DepthAnythingv2 в рамках мульти-учительского обучения значительно повысило качество прогнозов.

Впечатляющие Результаты и Конкуренция

На тестах DIODE и ETH3D метод Distill-Any-Depth продемонстрировал заметное снижение значений AbsRel на 9.6–20% по сравнению с традиционными алгоритмами дистилляции. Например, обучение модели DPT при использовании Genpercept и DepthAnythingv2 дало результат AbsRel 0.065 на ETH3D, в то время как показания Genpercept составили 0.096.

На таких бенчмарках, как NYUv2, KITTI и ScanNet, он также заслуженно занял позиции на уровне "State-of-the-Art" (SOTA): значения AbsRel составили 0.043 (NYUv2), 0.070 (KITTI) и 0.042 (ScanNet). Это превосходит результаты DepthAnythingv2 (0.045 на NYUv2) и Marigold (0.055), что подчеркивает высокую детализацию и точность относительной глубины, достигнутую методом Distill-Any-Depth.

Доступные Модели и Установка

В открытом доступе представлено три модели, обученные по методике Distill-Any-Depth:

  • Distill-Any-Depth-Multi-Teacher-Small — 24.8M параметров
  • Distill-Any-Depth-Multi-Teacher-Base — 95.5M параметров
  • Distill-Any-Depth-Multi-Teacher-Large — 335.3M параметров

Для локальной установки и инференса в Gradio, следуйте этим шагам:

# Создание окружения Conda conda create -n distill-any-depth -y python=3.10 conda activate distill-any-depth # Клонирование репозитория git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive cd MASt3R-SLAM/ # Установка зависимостей pip install -r requirements.txt pip install -e . # Если используете hf_hub_download, выполните следующие строки кода checkpoint
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 0
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 0
Ширина: 1280 px
Высота: 640 px
Соотношение сторон.: 2:1

Скачать
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 1
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 1
Ширина: 1500 px
Высота: 789 px
Соотношение сторон.: 500:263

Скачать
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 2
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 2
Ширина: 2131 px
Высота: 744 px
Соотношение сторон.: 2131:744

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Вы не поверите, что GigaChat 2 теперь доступен даже в Telegram! Это просто невероятно! 🎉 Теперь вы можете наслаждаться общением с этим мощным инструментом в любом месте и в любое время! GigaChat 2 предлагает непревзойденные возможности для общения, и его интеграция с Telegram — это просто бомба! Вы сможете легко обмениваться сообщ... Читать далее
Зачем платить за терапию, когда у тебя под рукой есть ChatGPT? Этот виртуальный друг готов помочь разобраться в твоих мыслях и чувствах без утомительных очередей. Мы подготовили пять мега-промптов, которые превратят чат в настоящий сеанс психотерапии. Погружайтесь в самокопание, прощайте свои тревоги и открывайте новые грани себя,... Читать далее
Привет, друзья! 🚀 В нашем Нейродайджесте на этой неделе обсуждаем невероятные новинки в мире LLM и генеративных моделей! Вы увидите свежие разработки, которые изменят подход к созданию контента и взаимодействию с AI. Кроме того, мы расскажем о новых алгоритмах и стартапах, которые уже набирают популярность. Не пропустите шанс загл... Читать далее