Интуитивная физика и JEPA: погружение в видеомодели

Интуитивная физика и её связь с видеомоделями: погружение в мир JEPA

Кажется, мы все согласны с тем, что интуитивная физика — это не просто «об этом знают только учёные». Это больше похоже на те базовые вещи, которые мы усваиваем, ещё сидя в детском саду и играя с игрушками. Мы ожидаем, что объекты не исчезают на глазах, не проходят сквозь стены и не меняют цвет, как хамелеоны на параде. Однако технологии постоянно бросают нам вызов, ведь некоторые продвинутые AI-системы справляются с математическими задачами лучше, чем мы, но проходят по этому тесту на «умение обходиться с обычными вещами» с жалкими результатами. Знакомо, да? Это всё о знаменитом парадоксе Моравека.

Но раз вы решили погрузиться в мир видеомоделей и интуитивной физики, то читайте дальше. Главными героями этой статьи стали квинтет гениев: Квентин Гарридо, Николас Баллас, Махмуд Асран, Адриен Бардес, Лоран Наджман, Майкл Раббат, Эммануэль Дюпуа и сам король нейросетей — Ян Лекун. Они представили не просто статью, а целую вселенную, в которой интуитивная физика сплетается с самонаблюдающим обучением на природных видео.

От структурированных моделей к JEPA

Поговорим о подходах. Классическая школа ставит на структурированные модели, где наука о репрезентациях объектов и их взаимодействии кажется чем-то вроде одеяла, сшитого из кусков данных. Мы знаем, что это работает, но, по сути, это старая добрая механика. Есть и пиксельные генеративные модели, которые развивают ситуацию: они пытаются реконструировать будущие данные, полагаясь на то, что было раньше. Но вот появляется нечто среднее между этими подходами — JEPA, или Joint Embedding Predictive Architectures.

Что такое JEPA, спросите вы? По идее, это как неожиданный гость на вечеринке, который не знает, о чем говорить, но цепляетщее внимание благодаря своему стилю. Вместо того чтобы предсказывать в пиксельном пространстве, JEPA предполагает, что предсказания следует делать в более абстрактной внутренней репрезентации. Она, в отличие от структурированных моделей, сама учит свои правила. Да, нет жесткой кодировки, только волшебный процесс самообучения. И именно здесь мы и сталкиваемся с первыми попытками научить машины интуитивно понимать физику.

Как работает JEPA?

Представьте, что вы берете входные данные (например, изображение) и отправляете их через энкодер, который превращает это все в внутреннюю репрезентацию. Далее следует предиктор, который пытается угадать, что произойдёт далее, исходя из текущей информации. В случае если есть какая-то скрытая переменная, например, действие объекта в видео, предиктор принимает это во внимание. И затем происходит сравнение: что имеется в реальности и что предсказано.

Важно отметить, что JEPA не является генеративной моделью. Это как тот манипулятор, который не знает, как создавать идеальные капкейки, но может угадать, что у нас в духовке печется нечто особенное. В рамках этой модели существуют разные японские матрешки: Hierarchical JEPA, Image-based JEPA и свеженькая Video JEPA с вариацией VCR — просто спросите, она тоже займет достойное место на полке среди всех этих инноваций.

Свежий взгляд на V-JEPA

А теперь держитесь крепче! Мы погружаемся в V-JEPA — тот самый улучшенный вариант, который не оставляет равнодушными. Эта модель имеет дело с видео и предсказывает замаскированные части кадров. По сути, она предлагает нам возможность изучать интуитивную физику, используя фреймворк "измерение ожидании-визуализации", который оценивает несоответствия между предсказаниями и реальностью. Этот метод также используется для анализа восприятия у живых существ (вспомните, когда вы подолгу изучаете неожиданные результаты).

Как и обычная JEPA, V-JEPA состоит из эн

Теги.: интуитивнаяфизика видеомodelи JEPA машиннообучение нейросети

53 1 месяц назад