Distill-Any-Depth: Революционный Подход к Оценке Глубины Сцены по Одному Изображению

Метод Distill-Any-Depth представляет собой прорыв в области монокулярной оценки глубины, который сочетает в себе передовые техники кросс-контекстной дистилляции и мульти-учительского обучения. Этот подход позволяет достигать высокой точности в определении расстояний до объектов, используя лишь одно RGB-изображение. В центре внимания — модели такие как DPT, MiDaS и DepthAnythingv2, которые обучаются на псевдо-метках, созданных более мощными учительскими моделями, такими как Genpercept и DepthAnythingv2.

Важность Distill-Any-Depth для Современных Технологий

Метод не просто улучшает существующие алгоритмы, но и устанавливает новый стандарт для определение глубины, что делает его крайне актуальным в таких сферах, как автономный транспорт и решения дополненной реальности. Это открывает двери для быстрого создания высокоточных 3D-карт, необходимых для навигации, а также для повышения реалистичности виртуальных миров посредством детализированного анализа пространственной структуры.

Энергетическая эффективность этого метода также заслуживает внимания: обучение моделей компьютерного зрения с использованием Distill-Any-Depth возможно даже с одной лишь видеокартой NVIDIA V100, что делает эту технологию доступной для широкого круга разработчиков.

Основные Принципы и Архитектура Distill-Any-Depth

Ключевой компонент метода — кросс-контекстная дистилляция, которая включает два основных сценария:

  • Shared-Context Distillation: как модель-учитель, так и модель-ученик обучаются на одинаковых фрагментах одного изображения, что позволяет обмениваться наиболее важными деталями.
  • Local-Global Distillation: модель-учитель изучает локальные фрагменты изображения, в то время как модель-ученик делает предсказания глубины для всей сцены, обеспечивая согласованность на глобальном уровне.

Эксперименты с участием 50 000 изображений из набора SA-1B с разрешением 560×560 продемонстрировали эффективность подхода. Использование псевдо-меток от Genpercept и DepthAnythingv2 в рамках мульти-учительского обучения значительно повысило качество прогнозов.

Впечатляющие Результаты и Конкуренция

На тестах DIODE и ETH3D метод Distill-Any-Depth продемонстрировал заметное снижение значений AbsRel на 9.6–20% по сравнению с традиционными алгоритмами дистилляции. Например, обучение модели DPT при использовании Genpercept и DepthAnythingv2 дало результат AbsRel 0.065 на ETH3D, в то время как показания Genpercept составили 0.096.

На таких бенчмарках, как NYUv2, KITTI и ScanNet, он также заслуженно занял позиции на уровне "State-of-the-Art" (SOTA): значения AbsRel составили 0.043 (NYUv2), 0.070 (KITTI) и 0.042 (ScanNet). Это превосходит результаты DepthAnythingv2 (0.045 на NYUv2) и Marigold (0.055), что подчеркивает высокую детализацию и точность относительной глубины, достигнутую методом Distill-Any-Depth.

Доступные Модели и Установка

В открытом доступе представлено три модели, обученные по методике Distill-Any-Depth:

  • Distill-Any-Depth-Multi-Teacher-Small — 24.8M параметров
  • Distill-Any-Depth-Multi-Teacher-Base — 95.5M параметров
  • Distill-Any-Depth-Multi-Teacher-Large — 335.3M параметров

Для локальной установки и инференса в Gradio, следуйте этим шагам:

# Создание окружения Conda conda create -n distill-any-depth -y python=3.10 conda activate distill-any-depth # Клонирование репозитория git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive cd MASt3R-SLAM/ # Установка зависимостей pip install -r requirements.txt pip install -e . # Если используете hf_hub_download, выполните следующие строки кода checkpoint
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 0
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 0
Ширина: 1280 px
Высота: 640 px
Соотношение сторон.: 2:1

Скачать
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 1
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 1
Ширина: 1500 px
Высота: 789 px
Соотношение сторон.: 500:263

Скачать
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 2
Distill-Any-Depth: Новый стандарт оценки глубины сцены ver 2
Ширина: 2131 px
Высота: 744 px
Соотношение сторон.: 2131:744

Скачать


Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Ура! Модели Qwen3 теперь поддерживают целых 119 языков и диалектов! Это просто фантастика! Представьте, сколько новых возможностей открывается благодаря такому разнообразию! Каждый язык — это уникальный мир, полон культуры и эмоций. Теперь мы можем общаться и понимать друг друга, независимо от того, где мы находимся. Это невероятно... Читать далее