Distill-Any-Depth: Революционный Подход к Оценке Глубины Сцены по Одному Изображению
Метод Distill-Any-Depth представляет собой прорыв в области монокулярной оценки глубины, который сочетает в себе передовые техники кросс-контекстной дистилляции и мульти-учительского обучения. Этот подход позволяет достигать высокой точности в определении расстояний до объектов, используя лишь одно RGB-изображение. В центре внимания — модели такие как DPT, MiDaS и DepthAnythingv2, которые обучаются на псевдо-метках, созданных более мощными учительскими моделями, такими как Genpercept и DepthAnythingv2.
Важность Distill-Any-Depth для Современных Технологий
Метод не просто улучшает существующие алгоритмы, но и устанавливает новый стандарт для определение глубины, что делает его крайне актуальным в таких сферах, как автономный транспорт и решения дополненной реальности. Это открывает двери для быстрого создания высокоточных 3D-карт, необходимых для навигации, а также для повышения реалистичности виртуальных миров посредством детализированного анализа пространственной структуры.
Энергетическая эффективность этого метода также заслуживает внимания: обучение моделей компьютерного зрения с использованием Distill-Any-Depth возможно даже с одной лишь видеокартой NVIDIA V100, что делает эту технологию доступной для широкого круга разработчиков.
Основные Принципы и Архитектура Distill-Any-Depth
Ключевой компонент метода — кросс-контекстная дистилляция, которая включает два основных сценария:
- Shared-Context Distillation: как модель-учитель, так и модель-ученик обучаются на одинаковых фрагментах одного изображения, что позволяет обмениваться наиболее важными деталями.
- Local-Global Distillation: модель-учитель изучает локальные фрагменты изображения, в то время как модель-ученик делает предсказания глубины для всей сцены, обеспечивая согласованность на глобальном уровне.
Эксперименты с участием 50 000 изображений из набора SA-1B с разрешением 560×560 продемонстрировали эффективность подхода. Использование псевдо-меток от Genpercept и DepthAnythingv2 в рамках мульти-учительского обучения значительно повысило качество прогнозов.
Впечатляющие Результаты и Конкуренция
На тестах DIODE и ETH3D метод Distill-Any-Depth продемонстрировал заметное снижение значений AbsRel на 9.6–20% по сравнению с традиционными алгоритмами дистилляции. Например, обучение модели DPT при использовании Genpercept и DepthAnythingv2 дало результат AbsRel 0.065 на ETH3D, в то время как показания Genpercept составили 0.096.
На таких бенчмарках, как NYUv2, KITTI и ScanNet, он также заслуженно занял позиции на уровне "State-of-the-Art" (SOTA): значения AbsRel составили 0.043 (NYUv2), 0.070 (KITTI) и 0.042 (ScanNet). Это превосходит результаты DepthAnythingv2 (0.045 на NYUv2) и Marigold (0.055), что подчеркивает высокую детализацию и точность относительной глубины, достигнутую методом Distill-Any-Depth.
Доступные Модели и Установка
В открытом доступе представлено три модели, обученные по методике Distill-Any-Depth:
- Distill-Any-Depth-Multi-Teacher-Small — 24.8M параметров
- Distill-Any-Depth-Multi-Teacher-Base — 95.5M параметров
- Distill-Any-Depth-Multi-Teacher-Large — 335.3M параметров
Для локальной установки и инференса в Gradio, следуйте этим шагам:
# Создание окружения Conda conda create -n distill-any-depth -y python=3.10 conda activate distill-any-depth # Клонирование репозитория git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive cd MASt3R-SLAM/ # Установка зависимостей pip install -r requirements.txt pip install -e . # Если используете hf_hub_download, выполните следующие строки кода checkpoint

Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 0
Ширина: 1280 px
Высота: 640 px
Соотношение сторон.: 2:1
Скачать

Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 1
Ширина: 1500 px
Высота: 789 px
Соотношение сторон.: 500:263
Скачать

Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 2
Ширина: 2131 px
Высота: 744 px
Соотношение сторон.: 2131:744
Скачать
Вам также может понравиться




















