Давайте Погрузимся в V-JEPA: Новаторский Подход к Обучению Видео

В мире обработки видео, серьезный шаг вперед может означать не только улучшение качества моделей, но и их способность понимать окружающий мир. Приветствуем V-JEPA — новый подход, который использует самостоятельное обучение (self-supervised learning) и предлагает впечатляющие результаты. Давайте разберемся, как это работает и какие перспективы открывает!

Для начала, представьте себе, что у вас есть набор видеокадров (размер T×H×W). На уровне деталей, V-JEPA превращает это видео в последовательность из L токенов. Затем с помощью бинарной маски (размерности T×H×W) происходит выбор токенов: некоторые токены остаются, а другие скрываются. В итоге мы получаем N токенов, которые сигнализируют о том, что осталось от исходной видеозаписи.

Теперь внимание, потому что тут начинается самое интересное! Каждый токен проходит через энкодер, который создает репрезентации. Убранные токены подмешиваются к остальным данным, включая обучаемые эмбеддинги для замаскированных токенов и их позиционные кодировки. На основе этого, предиктор генерирует эмбеддинг для каждого скрытого токена, и мы успешно достигаем финального результата: считается L1-лосс между предсказанными значениями и настоящими значениями. Кстати, энкодер для y — это EMA (Exponentially Moving Average) от энкодера для x. Удивительно, как всё это соединяется!

Осваивая Модель: Смешанные Датасеты и Интуитивная Физика

V-JEPA проходит предобучение на всей смеси данными из VideoMix2M, включая товары как Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (громадное количество видео — 1.2 млн по 6.5 минут в среднем — в общем, целых 15 лет видеопотока!). Модель работает с энкодерами ViT, которые принимают на вход 3 секунды видео в виде 16 кадров (да, всего 5.33 fps!) с резолюцией 224x224.

Безусловно, в процессе обучения исследуются способности модели к интуитивной физике. Под эгидой IntPhys, GRASP и InfLevel-lab, V-JEPA проходит через оценку таких свойств, как постоянство объектов, непрерывность движения и даже гравитация. Странно звучит, но сочетание этих тестов покрывает очень широкий спектр физических законов, с которыми мы сталкиваемся в реальной жизни.

Сравнение и Завоевание Верха

V-JEPA не ищет легких путей и успешно конкурирует с другими видеомоделями, включая VideoMAEv2 и мультимодальные LLM (такие как Qwen2-VL-7B и Gemini 1.5 Pro). Мы видим, что тесты на попарной классификации — это не просто тренировка, а настоящая проверка силы модели, где она должна определять, какие из видео невозможны на основе "сюрприза". Удивительно, что V-JEPA стабильно превосходит необученные модели на всех трёх датасетах! Это гласит о том, что предсказания в обучаемом пространстве вполне достаточно для разработки понимания интуитивной физики без предварительных абстракций!

Конечно, стоит задуматься, какую информацию смогут предоставить модели весной 2025 года. Каждый новый шаг — это загадка, например: зачем нам сравнивать видео, когда гораздо проще анализировать уникальные моменты? Тут мы видим, что максимальный сюрприз работает лучше, чем усреднение, что позволяет модели избегать влияния сложности сцены.

Статистическая Дорога к Вершине

Перейдя к более детальным анализам, performance модели по отдельным аспектам рассмотрели через V-JEPA с ViT-L и обучением на HowTo100M. Мы провели анализ с использованием статистического теста Вэлча, чтобы определить, где существуют значимые различия между успешными предсказаниями и необученными моделями. Это даёт нам ценные инсайты — постоянство объектов и непрерывность явно выделяются, в то время как многие другие аспекты не показали статистической значимости.

К тому же у V-JEPA так же высокие результаты, как и у людей на



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Большие новости из мира ИИ! Grok 3 наконец-то запустило своё API, и это просто WOW! Теперь у нас есть возможность работать не только с мощной моделью Grok 3, но и с её уменьшенной версией - Grok 3 Mini. Это значит больше возможностей для разработчиков и удивительные применения в разных сферах! Но это ещё не всё! Grok 3 выходит на р... Читать далее
Вы не поверите, но Япония снова удивила мир своими невероятными технологиями! На этот раз это не просто игрушка, а настоящая революция в мире верховой езды! Японская компания Kawasaki представила потрясающего робота Corleo, который способен не только имитировать движения лошади, но и поддерживать rider в процессе обучения. Это неве... Читать далее