Давайте Погрузимся в V-JEPA: Новаторский Подход к Обучению Видео
В мире обработки видео, серьезный шаг вперед может означать не только улучшение качества моделей, но и их способность понимать окружающий мир. Приветствуем V-JEPA — новый подход, который использует самостоятельное обучение (self-supervised learning) и предлагает впечатляющие результаты. Давайте разберемся, как это работает и какие перспективы открывает!
Для начала, представьте себе, что у вас есть набор видеокадров (размер T×H×W). На уровне деталей, V-JEPA превращает это видео в последовательность из L токенов. Затем с помощью бинарной маски (размерности T×H×W) происходит выбор токенов: некоторые токены остаются, а другие скрываются. В итоге мы получаем N токенов, которые сигнализируют о том, что осталось от исходной видеозаписи.
Теперь внимание, потому что тут начинается самое интересное! Каждый токен проходит через энкодер, который создает репрезентации. Убранные токены подмешиваются к остальным данным, включая обучаемые эмбеддинги для замаскированных токенов и их позиционные кодировки. На основе этого, предиктор генерирует эмбеддинг для каждого скрытого токена, и мы успешно достигаем финального результата: считается L1-лосс между предсказанными значениями и настоящими значениями. Кстати, энкодер для y — это EMA (Exponentially Moving Average) от энкодера для x. Удивительно, как всё это соединяется!
Осваивая Модель: Смешанные Датасеты и Интуитивная Физика
V-JEPA проходит предобучение на всей смеси данными из VideoMix2M, включая товары как Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (громадное количество видео — 1.2 млн по 6.5 минут в среднем — в общем, целых 15 лет видеопотока!). Модель работает с энкодерами ViT, которые принимают на вход 3 секунды видео в виде 16 кадров (да, всего 5.33 fps!) с резолюцией 224x224.
Безусловно, в процессе обучения исследуются способности модели к интуитивной физике. Под эгидой IntPhys, GRASP и InfLevel-lab, V-JEPA проходит через оценку таких свойств, как постоянство объектов, непрерывность движения и даже гравитация. Странно звучит, но сочетание этих тестов покрывает очень широкий спектр физических законов, с которыми мы сталкиваемся в реальной жизни.
Сравнение и Завоевание Верха
V-JEPA не ищет легких путей и успешно конкурирует с другими видеомоделями, включая VideoMAEv2 и мультимодальные LLM (такие как Qwen2-VL-7B и Gemini 1.5 Pro). Мы видим, что тесты на попарной классификации — это не просто тренировка, а настоящая проверка силы модели, где она должна определять, какие из видео невозможны на основе "сюрприза". Удивительно, что V-JEPA стабильно превосходит необученные модели на всех трёх датасетах! Это гласит о том, что предсказания в обучаемом пространстве вполне достаточно для разработки понимания интуитивной физики без предварительных абстракций!
Конечно, стоит задуматься, какую информацию смогут предоставить модели весной 2025 года. Каждый новый шаг — это загадка, например: зачем нам сравнивать видео, когда гораздо проще анализировать уникальные моменты? Тут мы видим, что максимальный сюрприз работает лучше, чем усреднение, что позволяет модели избегать влияния сложности сцены.
Статистическая Дорога к Вершине
Перейдя к более детальным анализам, performance модели по отдельным аспектам рассмотрели через V-JEPA с ViT-L и обучением на HowTo100M. Мы провели анализ с использованием статистического теста Вэлча, чтобы определить, где существуют значимые различия между успешными предсказаниями и необученными моделями. Это даёт нам ценные инсайты — постоянство объектов и непрерывность явно выделяются, в то время как многие другие аспекты не показали статистической значимости.
К тому же у V-JEPA так же высокие результаты, как и у людей на
Вам также может понравиться





















