Distill-Any-Depth: Революция в Оценке Глубины по Изображению

Distill-Any-Depth: Революционный Подход к Оценке Глубины Сцены по Одному Изображению

Метод Distill-Any-Depth представляет собой прорыв в области монокулярной оценки глубины, который сочетает в себе передовые техники кросс-контекстной дистилляции и мульти-учительского обучения. Этот подход позволяет достигать высокой точности в определении расстояний до объектов, используя лишь одно RGB-изображение. В центре внимания — модели такие как DPT, MiDaS и DepthAnythingv2, которые обучаются на псевдо-метках, созданных более мощными учительскими моделями, такими как Genpercept и DepthAnythingv2.

Важность Distill-Any-Depth для Современных Технологий

Метод не просто улучшает существующие алгоритмы, но и устанавливает новый стандарт для определение глубины, что делает его крайне актуальным в таких сферах, как автономный транспорт и решения дополненной реальности. Это открывает двери для быстрого создания высокоточных 3D-карт, необходимых для навигации, а также для повышения реалистичности виртуальных миров посредством детализированного анализа пространственной структуры.

Энергетическая эффективность этого метода также заслуживает внимания: обучение моделей компьютерного зрения с использованием Distill-Any-Depth возможно даже с одной лишь видеокартой NVIDIA V100, что делает эту технологию доступной для широкого круга разработчиков.

Основные Принципы и Архитектура Distill-Any-Depth

Ключевой компонент метода — кросс-контекстная дистилляция, которая включает два основных сценария:

Shared-Context Distillation: как модель-учитель, так и модель-ученик обучаются на одинаковых фрагментах одного изображения, что позволяет обмениваться наиболее важными деталями.
Local-Global Distillation: модель-учитель изучает локальные фрагменты изображения, в то время как модель-ученик делает предсказания глубины для всей сцены, обеспечивая согласованность на глобальном уровне.

Эксперименты с участием 50 000 изображений из набора SA-1B с разрешением 560×560 продемонстрировали эффективность подхода. Использование псевдо-меток от Genpercept и DepthAnythingv2 в рамках мульти-учительского обучения значительно повысило качество прогнозов.

Впечатляющие Результаты и Конкуренция

На тестах DIODE и ETH3D метод Distill-Any-Depth продемонстрировал заметное снижение значений AbsRel на 9.6–20% по сравнению с традиционными алгоритмами дистилляции. Например, обучение модели DPT при использовании Genpercept и DepthAnythingv2 дало результат AbsRel 0.065 на ETH3D, в то время как показания Genpercept составили 0.096.

На таких бенчмарках, как NYUv2, KITTI и ScanNet, он также заслуженно занял позиции на уровне "State-of-the-Art" (SOTA): значения AbsRel составили 0.043 (NYUv2), 0.070 (KITTI) и 0.042 (ScanNet). Это превосходит результаты DepthAnythingv2 (0.045 на NYUv2) и Marigold (0.055), что подчеркивает высокую детализацию и точность относительной глубины, достигнутую методом Distill-Any-Depth.

Доступные Модели и Установка

В открытом доступе представлено три модели, обученные по методике Distill-Any-Depth:

Distill-Any-Depth-Multi-Teacher-Small — 24.8M параметров
Distill-Any-Depth-Multi-Teacher-Base — 95.5M параметров
Distill-Any-Depth-Multi-Teacher-Large — 335.3M параметров

Для локальной установки и инференса в Gradio, следуйте этим шагам:

# Создание окружения Conda conda create -n distill-any-depth -y python=3.10 conda activate distill-any-depth # Клонирование репозитория git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive cd MASt3R-SLAM/ # Установка зависимостей pip install -r requirements.txt pip install -e . # Если используете hf_hub_download, выполните следующие строки кода checkpoint