Интуитивная физика и её связь с видеомоделями: погружение в мир JEPA

Кажется, мы все согласны с тем, что интуитивная физика — это не просто «об этом знают только учёные». Это больше похоже на те базовые вещи, которые мы усваиваем, ещё сидя в детском саду и играя с игрушками. Мы ожидаем, что объекты не исчезают на глазах, не проходят сквозь стены и не меняют цвет, как хамелеоны на параде. Однако технологии постоянно бросают нам вызов, ведь некоторые продвинутые AI-системы справляются с математическими задачами лучше, чем мы, но проходят по этому тесту на «умение обходиться с обычными вещами» с жалкими результатами. Знакомо, да? Это всё о знаменитом парадоксе Моравека.

Но раз вы решили погрузиться в мир видеомоделей и интуитивной физики, то читайте дальше. Главными героями этой статьи стали квинтет гениев: Квентин Гарридо, Николас Баллас, Махмуд Асран, Адриен Бардес, Лоран Наджман, Майкл Раббат, Эммануэль Дюпуа и сам король нейросетей — Ян Лекун. Они представили не просто статью, а целую вселенную, в которой интуитивная физика сплетается с самонаблюдающим обучением на природных видео.

От структурированных моделей к JEPA

Поговорим о подходах. Классическая школа ставит на структурированные модели, где наука о репрезентациях объектов и их взаимодействии кажется чем-то вроде одеяла, сшитого из кусков данных. Мы знаем, что это работает, но, по сути, это старая добрая механика. Есть и пиксельные генеративные модели, которые развивают ситуацию: они пытаются реконструировать будущие данные, полагаясь на то, что было раньше. Но вот появляется нечто среднее между этими подходами — JEPA, или Joint Embedding Predictive Architectures.

Что такое JEPA, спросите вы? По идее, это как неожиданный гость на вечеринке, который не знает, о чем говорить, но цепляетщее внимание благодаря своему стилю. Вместо того чтобы предсказывать в пиксельном пространстве, JEPA предполагает, что предсказания следует делать в более абстрактной внутренней репрезентации. Она, в отличие от структурированных моделей, сама учит свои правила. Да, нет жесткой кодировки, только волшебный процесс самообучения. И именно здесь мы и сталкиваемся с первыми попытками научить машины интуитивно понимать физику.

Как работает JEPA?

Представьте, что вы берете входные данные (например, изображение) и отправляете их через энкодер, который превращает это все в внутреннюю репрезентацию. Далее следует предиктор, который пытается угадать, что произойдёт далее, исходя из текущей информации. В случае если есть какая-то скрытая переменная, например, действие объекта в видео, предиктор принимает это во внимание. И затем происходит сравнение: что имеется в реальности и что предсказано.

Важно отметить, что JEPA не является генеративной моделью. Это как тот манипулятор, который не знает, как создавать идеальные капкейки, но может угадать, что у нас в духовке печется нечто особенное. В рамках этой модели существуют разные японские матрешки: Hierarchical JEPA, Image-based JEPA и свеженькая Video JEPA с вариацией VCR — просто спросите, она тоже займет достойное место на полке среди всех этих инноваций.

Свежий взгляд на V-JEPA

А теперь держитесь крепче! Мы погружаемся в V-JEPA — тот самый улучшенный вариант, который не оставляет равнодушными. Эта модель имеет дело с видео и предсказывает замаскированные части кадров. По сути, она предлагает нам возможность изучать интуитивную физику, используя фреймворк "измерение ожидании-визуализации", который оценивает несоответствия между предсказаниями и реальностью. Этот метод также используется для анализа восприятия у живых существ (вспомните, когда вы подолгу изучаете неожиданные результаты).

Как и обычная JEPA, V-JEPA состоит из эн



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Эй, друзья! 🌟 У нас для вас потрясающая новость! В Telegram запустился новый канал, где собраны удивительные животные, созданные с помощью нейросетей! 🤖🐾 Эти изображения — настоящее волшебство, которое удивляет и вдохновляет! Каждый пост — это уникальное произведение искусства, которое меняет наше представление о животных! Не уп... Читать далее
Нейродайджест недели #63 готов! Это ваша порция свежих новостей из мира LLM и генеративных моделей! Мы обсудим самые захватывающие тренды, прорывы и события, которые не оставят вас равнодушными! Подготовьтесь узнать о новых достижениях в области искусственного интеллекта, интересных проектах и тенденциях, которые формируют будущее... Читать далее
Gemma 3 порадовала нас своими квантизированными версиями! Это как получить доступ к высококачественному пиву на распродаже: все модели становятся доступнее, а магия искусственного интеллекта еще ближе. Теперь каждый может насладиться мощью квантизации, не боясь наступить на свое денежное благосостояние. Сделайте свои модели легкими... Читать далее
Присоединяйтесь к хакатону МТС True Tech Hack 2025! Это уникальная возможность для творческих умов показать свои навыки в IT и технологиях! Нас ждут захватывающие турниры, крутые идеи и полное погружение в мир инноваций. Работайте в команде, решайте интересные задачи и получайте шанс на невероятные призы! Успейте зарегистрироваться... Читать далее