V-JEPA: Инновации в Обучении Видео и Интуитивной Физике

Давайте Погрузимся в V-JEPA: Новаторский Подход к Обучению Видео

В мире обработки видео, серьезный шаг вперед может означать не только улучшение качества моделей, но и их способность понимать окружающий мир. Приветствуем V-JEPA — новый подход, который использует самостоятельное обучение (self-supervised learning) и предлагает впечатляющие результаты. Давайте разберемся, как это работает и какие перспективы открывает!

Для начала, представьте себе, что у вас есть набор видеокадров (размер T×H×W). На уровне деталей, V-JEPA превращает это видео в последовательность из L токенов. Затем с помощью бинарной маски (размерности T×H×W) происходит выбор токенов: некоторые токены остаются, а другие скрываются. В итоге мы получаем N токенов, которые сигнализируют о том, что осталось от исходной видеозаписи.

Теперь внимание, потому что тут начинается самое интересное! Каждый токен проходит через энкодер, который создает репрезентации. Убранные токены подмешиваются к остальным данным, включая обучаемые эмбеддинги для замаскированных токенов и их позиционные кодировки. На основе этого, предиктор генерирует эмбеддинг для каждого скрытого токена, и мы успешно достигаем финального результата: считается L1-лосс между предсказанными значениями и настоящими значениями. Кстати, энкодер для y — это EMA (Exponentially Moving Average) от энкодера для x. Удивительно, как всё это соединяется!

Осваивая Модель: Смешанные Датасеты и Интуитивная Физика

V-JEPA проходит предобучение на всей смеси данными из VideoMix2M, включая товары как Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (громадное количество видео — 1.2 млн по 6.5 минут в среднем — в общем, целых 15 лет видеопотока!). Модель работает с энкодерами ViT, которые принимают на вход 3 секунды видео в виде 16 кадров (да, всего 5.33 fps!) с резолюцией 224x224.

Безусловно, в процессе обучения исследуются способности модели к интуитивной физике. Под эгидой IntPhys, GRASP и InfLevel-lab, V-JEPA проходит через оценку таких свойств, как постоянство объектов, непрерывность движения и даже гравитация. Странно звучит, но сочетание этих тестов покрывает очень широкий спектр физических законов, с которыми мы сталкиваемся в реальной жизни.

Сравнение и Завоевание Верха

V-JEPA не ищет легких путей и успешно конкурирует с другими видеомоделями, включая VideoMAEv2 и мультимодальные LLM (такие как Qwen2-VL-7B и Gemini 1.5 Pro). Мы видим, что тесты на попарной классификации — это не просто тренировка, а настоящая проверка силы модели, где она должна определять, какие из видео невозможны на основе "сюрприза". Удивительно, что V-JEPA стабильно превосходит необученные модели на всех трёх датасетах! Это гласит о том, что предсказания в обучаемом пространстве вполне достаточно для разработки понимания интуитивной физики без предварительных абстракций!

Конечно, стоит задуматься, какую информацию смогут предоставить модели весной 2025 года. Каждый новый шаг — это загадка, например: зачем нам сравнивать видео, когда гораздо проще анализировать уникальные моменты? Тут мы видим, что максимальный сюрприз работает лучше, чем усреднение, что позволяет модели избегать влияния сложности сцены.

Статистическая Дорога к Вершине

Перейдя к более детальным анализам, performance модели по отдельным аспектам рассмотрели через V-JEPA с ViT-L и обучением на HowTo100M. Мы провели анализ с использованием статистического теста Вэлча, чтобы определить, где существуют значимые различия между успешными предсказаниями и необученными моделями. Это даёт нам ценные инсайты — постоянство объектов и непрерывность явно выделяются, в то время как многие другие аспекты не показали статистической значимости.

К тому же у V-JEPA так же высокие результаты, как и у людей на

Теги.: V-JEPA машинное обучение видеообработка искусственный интеллект самообучение

60 2 месяца назад

Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!

Степан

Предыдущая статья

Когда ChatGPT становится шеф-поваром: кулинарные чудеса!

Следующая статья

Топ-3 самых шокирующих предательств в аниме!

Нейродайджест за неделю (#68): Майские праздники с LLM! LLM - Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены. - Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз деше

01 Jun

Елена

С Майскими от AI-Newz! 🚀 Нейродайджест #68: LLM-праздник! Баф Gemini 2.5 Pro - топ арены! Mistral Medium 3 - почти Sonnet, но в 7 раз дешевле! 🤯 Погнали заряжать креативность! Читать далее

NVIDIA: Обучение роботов жить в реальном мире через симуляции и нейросети