JEPA 技术演进深度解析:从直觉到世界模型


第一章:直觉层 —— 为什么我们需要新的 AI 架构?

1.1 当前大模型的"能力错觉"

假设有一个具体场景:

你问一个强大的语言模型:“帮我规划一次从北京出发、预算 2 万元、为期 10 天的欧洲旅行”

模型可能会给出看似完美的行程:

但深入追问就会暴露问题:

如果卢浮宫周一闭馆,行程怎么调整?
如果航班延误 3 小时,后续交通如何衔接?
如果突然下雨,户外景点如何替换?

→ 模型无法动态推理,因为它没有"世界如何运作"的内部模型

关键点 #1

当前大模型本质是"统计关联引擎",而非"因果推理引擎"。
它们预测"下一个词最可能是什么",而非"如果这样做,世界会变成什么样"。

1.2 人类智能的关键:世界模型 (World Model)

对比人类的思考过程:

当你看到"杯子从桌边滑落"时:

1️⃣ 瞬间预测:杯子会下落 → 可能摔碎 → 需要接住或避开
2️⃣ 无需见过完全相同的场景(杯子颜色、桌子材质都不同)
3️⃣ 基于物理常识(重力)、物体属性(玻璃易碎)、过往经验快速推理

这种能力来自大脑中的"世界模型":
- 一个内部模拟器,能回答"如果...那么..."
- 在抽象层面运作("物体下落"而非"每个像素如何变化")
- 支持反事实推理("如果当时接住了会怎样")

关键点 #2

智能的核心不是记忆海量数据,而是学会抽象预测
世界模型 = 抽象表征 + 动态预测 + 不确定性建模

1.3 技术挑战:为什么世界模型难以构建?

构建世界模型面临三重根本挑战:

挑战 具体表现 传统方法的局限
维度灾难 像素空间维度太高(224×224×3=15 万维) 生成式模型(如 MAE)预测每个像素,计算冗余
不确定性 同一场景可能有多种合理未来 确定性预测会输出"模糊平均",丢失关键信息
抽象需求 预测需要聚焦"什么信息重要" 像素级损失函数无法区分语义重要性与噪声

关键问题形式化

给定输入 $x$(如视频前 10 秒),我们希望预测未来 $y$(后 10 秒)。但:

  1. $y$ 的空间太大,直接预测不可行
  2. $P(y|x)$ 是多模态的(多种可能未来)
  3. 我们真正需要的是支持决策的抽象信息,而非像素细节

这正是 JEPA 要解决的核心问题:如何在抽象空间进行有效预测?


第二章:概念层 —— JEPA 的核心思想

2.1 范式转变:从"预测像素"到"预测表征"

传统预测架构:

x (像素) → 编码器 → 预测器 → 解码器 → ŷ (像素)
                    ↓
              损失:‖y - ŷ‖²(像素级)

问题:解码器迫使模型关注所有细节,包括无关噪声。

JEPA 的革命性思路:

x → 编码器 f_θ → s_x (抽象表征)
                    ↓
              预测器 g_φ → ŝ_y (预测的表征)
                    ↓
y → 目标编码器 f_θ' → s_y (目标的表征)
                    ↓
              损失:‖s_y - ŝ_y‖²(表征级)

核心创新

  1. 预测目标转移:不预测 $y$ 本身,而预测 $y$ 的抽象表征 $s_y$
  2. 信息瓶颈设计:编码器 $f$ 被迫学习"什么信息值得保留"
  3. 双编码器架构:目标编码器 $f_{\theta'}$ 提供稳定学习目标

2.2 数学形式化:理解"为什么有效"

2.2.1 信息论视角

设 $X$ 为输入,$Y$ 为目标,$S_X = f_\theta(X)$ 为表征。我们希望:

$$\max_\theta I(S_X; Y) - \beta I(S_X; X)$$

即:最大化表征 $S_X$ 关于目标 $Y$ 的信息,同时最小化关于输入 $X$ 的冗余信息。

直观解释

2.2.2 能量基模型 (EBM) 视角

JEPA 可视为一种能量基模型,定义能量函数:

$$F_w(x, y) = \| g_\phi(f_\theta(x_c), m) - f_{\theta'}(y) \|_2^2$$

其中:

训练目标

$$\min_w \mathbb{E}_{(x,y)\sim p_{\text{data}}}[F_w(x,y)] + \lambda \cdot \text{Regularizer}(w)$$

关键性质

2.2.3 避免表征坍塌:正则化策略

问题:若不加约束,模型可能学到平凡解 $f_\theta(x) = c$(常数),使损失为零。

JEPA 的解决方案(非对比方法):

  1. 目标编码器使用 EMA

    $$\theta'_t = \tau \theta'_{t-1} + (1-\tau) \theta_t, \quad \tau \approx 0.996$$
    • 提供"慢目标",稳定训练动态
    • 防止编码器与预测器协同坍塌
  2. 表征统计约束(如 VICReg):

    • 方差项:$\text{Var}(s_j) \geq \gamma$,防止所有样本输出相同值
    • 协方差项:$\text{Cov}(s_i, s_j) \approx 0$,减少特征冗余

✅ 优势:避免对比学习所需的 $O(B^2)$ 负样本计算
⚠️ 代价:需要仔细调正则化系数,理论保证较弱

2.3 核心概念总结

 JEPA 的本质:
   "不预测世界长什么样,而预测世界的关键抽象如何演化"

 关键设计:
   1. 表征空间预测:聚焦语义,忽略像素噪声
   2. 掩码策略引导:通过"预测什么"控制"学习什么"
   3. 正则化防坍塌:用统计约束替代对比负样本

第三章:I-JEPA:图像域的突破

3.1 动机:为什么从图像开始?

问题:如何验证"表征空间预测"思想可行?

选择图像的原因:
数据丰富(ImageNet 等)
评估标准成熟(线性探针、下游任务)
计算相对可控(相比视频)
可复用 ViT 等成熟架构

3.2 核心架构:三组件协同

输入: x ∈ ℝ^(3×224×224)
│
├─► [目标编码器 f_θ'] ──► s_y ∈ ℝ^(N×d)  # 处理完整图像,参数通过 EMA 更新
│
├─► [掩码采样] ──► 选择目标块 T 和上下文块 C
│      │
│      ├─ 目标块:4 个,每个占图像 15-20% 面积,空间分散
│      └─ 上下文块:图像 \ 目标块(可见部分)
│
└─► [上下文编码器 f_θ] ──► s_x ∈ ℝ^(N_c×d)  # 仅处理可见部分
        │
        ▼
   [预测器 g_φ] ──► ŝ_y ∈ ℝ^(N_t×d)  # 预测目标块的表征
        │
        ▼
   损失:ℓ = (1/|T|) Σ_{j∈T} ‖ŝ_y^j - s_y^j‖₂²

3.3 关键创新

问题:如果掩码太小或太局部,模型可能只学习低级纹理,而非高级语义。

I-JEPA 的解决方案

def sample_target_blocks(image_shape, patch_size=16):
    """采样语义丰富的目标块"""
    targets = []
    for _ in range(4):  # 4 个目标块
        # 1. 采样尺度:15-20% 图像面积(足够大以包含语义)
        scale = uniform(0.15, 0.20)
        h_t = int(sqrt(scale) * H_p)
        w_t = int(sqrt(scale) * W_p)
        
        # 2. 采样位置:随机但确保在边界内
        x1 = randint(0, W_p - w_t)
        y1 = randint(0, H_p - h_t)
        
        targets.append((x1, y1, x1+w_t, y1+h_t))
    
    # 3. 上下文 = 全图 \ 所有目标块的并集
    #    → 迫使模型整合全局信息,而非仅依赖邻近区域
    return targets

设计原理

3.4 训练细节

3.4.1 梯度流控制

可训练参数:θ (上下文编码器), φ (预测器)
冻结参数:θ' (目标编码器,通过 EMA 更新)

训练循环:
1. 前向:
   s_y = f_θ'(x)              # θ' 固定,无梯度
   s_x = f_θ(x_visible)       # θ 可训练
   ŝ_y = g_φ(s_x, mask_info)  # φ 可训练
   
2. 损失:ℓ = ‖ŝ_y - s_y‖²

3. 反向:仅更新 θ, φ

4. EMA 更新:θ' ← τθ' + (1-τ)θ  # 关键!稳定目标

3.4.2 为什么需要位置编码?

预测器需要知道"预测哪个位置"的表征:

$$\hat{s}_y^j = g_\phi(s_x, p_j)$$

其中 $p_j$ 是目标块 $j$ 的位置编码(可学习或正弦编码)。

注意:模型学习的是"给定上下文,某位置应该有什么语义",而非"某位置应该是什么像素"。

3.5 效果验证:如何证明学到了"好"表征?

3.5.1 标准评估协议

1. 预训练:I-JEPA on ImageNet-1K ( unlabeled )
2. 冻结编码器 f_θ
3. 线性探针:训练单层分类器 on frozen features
   - 优化器:SGD, LR=0.1, batch=1024, 100 epochs
   - 数据增强:仅测试时标准增强(⚠️ 预训练时增强不可用!)
4. 报告:ImageNet Top-1/Top-5 accuracy

3.5.2 结果

方法 Backbone 预训练时间 ImageNet Top-1 优势
MAE ViT-H/14 ~1500 A100-h 83.3% 像素重建
I-JEPA ViT-H/14 ~1150 A100-h 83.0% 表征预测,更快收敛
DINOv2 ViT-H/14 ~2000 A100-h 84.1% 对比+蒸馏

3.6 I-JEPA 的贡献与局限

贡献:
   1. 首次验证"表征空间预测"在图像域可行
   2. 提出多块掩码策略,引导学习高级语义
   3. 证明 EMA+ 正则化可有效防坍塌,避免对比学习开销

⚠️ 局限:
   1. 仍局限于静态图像,无法建模时序动态
   2. 掩码策略需手工设计,缺乏自适应能力
   3. 理论保证较弱,超参调优依赖经验

下一个问题:如何将这一思想扩展到视频,学习"世界如何随时间演化"?

第四章:V-JEPA:时序建模的突破

4.1 从"空间抽象"到"时空抽象"

图像 → 视频的核心挑战:

1️⃣ 时间冗余:连续帧高度相似 → 预测任务太简单
2️⃣ 动态建模:需要学习"什么在变化"而非"什么不变"
3️⃣ 时序尺度:短期运动(几帧)vs 长期依赖(几十帧)

目标:学习一个能预测"未来表征如何演化"的世界模型

4.2 核心扩展:时空掩码策略

4.2.1 问题:简单扩展会失效

若对每帧独立应用 I-JEPA 的 2D 掩码:

帧 1: [█][░][█]  # ░ = masked
帧 2: [░][█][░]
帧 3: [█][█][░]

→ 模型可通过帧间插值轻松预测,无需学习动态

4.2.2 V-JEPA 的解决方案:时间重复掩码

def sample_temporal_masks(num_frames, strategy='short'):
    """生成时空掩码,强制关注变化"""
    
    if strategy == 'short':
        # Short-range: 关注局部运动(如物体移动)
        num_blocks = 8
        spatial_scale = 0.15  # 每块占 15% 空间
        temporal_span = 2     # 连续 2 帧
        
    else:  # 'long'
        # Long-range: 关注长期依赖(如事件发展)
        num_blocks = 2
        spatial_scale = 0.70  # 每块占 70% 空间
        temporal_span = num_frames  # 跨整个序列
    
    masks = []
    for _ in range(num_blocks):
        # 1. 采样时间起始点
        t_start = randint(0, num_frames - temporal_span)
        
        # 2. 采样空间位置(同 I-JEPA)
        h_t = int(sqrt(spatial_scale) * H_p)
        w_t = int(sqrt(spatial_scale) * W_p)
        x1, y1 = randint(0, W_p-w_t), randint(0, H_p-h_t)
        
        # 3. 关键:在时间维度重复相同 2D mask
        mask_3d = zeros((num_frames, H_p, W_p))
        for t in range(t_start, t_start + temporal_span):
            mask_3d[t, y1:y1+h_t, x1:x1+w_t] = 1
        
        masks.append(mask_3d)
    
    return union_of_masks(masks)  # 取并集

设计原理

4.3 架构调整:适应视频输入

输入: V ∈ ℝ^(T×C×H×W), T=16 帧 (~2 秒@8fps)
│
├─► 时空 Patch 化: 16×16×2 (空间 16×16, 时间 2 帧) → L 个时空 token
│
├─► [目标编码器 f_θ']: 处理完整视频 → s_y ∈ ℝ^(L×d)
│
├─► [时空掩码]: 应用上述策略 → 可见 token + 目标 token
│
├─► [上下文编码器 f_θ]: 仅处理可见时空 token → s_x
│      │
│      ▼
│   [预测器 g_φ]: Transformer 架构(2-4 层 self-attention)
│      │         → 建模长程时空依赖
│      ▼
│   ŝ_y ∈ ℝ^(L_t×d): 预测目标时空 token 的表征
│
└─► 损失: ℓ = (1/L_t) Σ ‖ŝ_y^j - s_y^j‖₁  # L1 损失更鲁棒

关键调整

  1. 预测器升级:MLP → Transformer,以建模时空依赖
  2. 损失函数:ℓ₂ → ℓ₁,对表征空间的异常值更鲁棒
  3. 评估方法:线性探针 → Attentive Probing(适应可变输入尺寸)

4.4 Attentive Probing

问题:传统线性探针假设输入尺寸固定,但视频任务输入长度可变。

解决方案:学习一个可聚合的查询 token

class AttentiveProbe(nn.Module):
    def __init__(self, feature_dim, num_classes):
        super().__init__()
        self.query = nn.Parameter(torch.randn(1, feature_dim))  # 可学习查询
        self.classifier = nn.Linear(feature_dim, num_classes)
    
    def forward(self, features):  # features: [B, L, d]
        # 1. 注意力聚合: query 关注重要时空位置
        weights = softmax(self.query @ features.transpose(-2,-1), dim=-1)  # [B, 1, L]
        pooled = weights @ features  # [B, 1, d]
        
        # 2. 分类
        logits = self.classifier(pooled.squeeze(1))  # [B, num_classes]
        return logits

4.5 效果

4.5.1 关键结果(Kinetics-400 动作识别)

方法 预训练数据 输入长度 Top-1 Acc 训练效率
VideoMAE K400 16 帧 78.2% 基线
V-JEPA K400+SSv2 16 帧 79.1% ~30% 更快收敛
V-JEPA (long-range) Same 16 帧 80.3% 需要更多计算

4.5.2 核心发现

  1. 时序掩码有效:时间重复策略显著提升动态建模能力
  2. 多尺度有益:short+long-range 组合 > 单一尺度
  3. 表征质量:可视化显示 V-JEPA 更聚焦运动物体而非背景

4.6 V-JEPA 的进展与未解问题

✅ 进展:
   1. 首次将表征预测扩展到视频域,学习时空抽象
   2. 提出时间重复掩码,有效避免"插值作弊"
   3. 证明 Transformer 预测器 + Attentive Probing 的实用性

⚠️ 未解问题:
   1. 时序长度仍受限(16 帧≈2 秒),无法建模长期依赖
   2. 预测仍是"填空"而非"推演",缺乏因果推理
   3. 未整合动作信息,无法支持规划

下一个问题:如何让模型学会"分层抽象",支持长期规划?

第五章:分层 JEPA:迈向规划的关键

5.1 为什么需要分层?

人类规划的本质:

高层: "去厨房拿杯子" (抽象目标)
  ↓ 分解
中层: "走到门口 → 开门 → 进入" (子目标序列)
  ↓ 分解  
低层: "左脚迈步 → 右脚跟进 → 手伸向门把" (具体动作)

计算优势:
- 扁平搜索: 10 种动作 × 10 步 = 10¹⁰ 种组合 ❌
- 分层搜索: (3 高层策略) × (5 中层选项)³ × (2 低层动作)¹⁰ ≈ 10⁶ ✓

注意

智能需要多层抽象:低层处理细节,高层处理意图,中间层桥接二者。

5.2 H-JEPA 架构:形式化分层预测

5.2.1 多层表征空间

定义 $L$ 层抽象空间 $\{\mathcal{S}^{(l)}\}_{l=1}^L$:

5.2.2 分层预测目标

$$\mathcal{L}_{\text{H-JEPA}} = \sum_{l=1}^L \alpha_l \cdot \mathbb{E}\left[ \left\| g_\phi^{(l)}(s_x^{(l)}, m) - s_y^{(l)} \right\|_2^2 \right]$$

其中:

5.2.3 时序抽象:不同层级对应不同时间尺度

层级 1 (低层): Δt = 1-2 帧
  - 表征: 物体位置、速度向量
  - 预测: 短期运动轨迹(物理约束)
  
层级 2 (中层): Δt = 10-20 帧  
  - 表征: 动作嵌入(如"伸手"、"抓取")
  - 预测: 子任务完成概率
  
层级 3 (高层): Δt = 100+ 帧
  - 表征: 目标嵌入(如"拿杯子"、"倒水")
  - 预测: 长期任务可行性

5.3 分层规划算法:从预测到决策

5.3.1 核心思想:分层模型预测控制 (MPC)

def hierarchical_plan(z_goal, horizon, max_depth=3):
    """
    分层规划:高层生成子目标,低层执行具体动作
    """
    # 1. 高层规划: 搜索抽象动作序列
    #    输入: 目标表征 z_goal, 规划步长 horizon//10
    #    输出: 抽象动作序列 [aa_1, aa_2, ..., aa_k]
    abstract_actions = search_abstract_space(z_goal, horizon//10)
    
    # 2. 中层细化: 为每个抽象动作生成子目标
    subgoals = []
    for aa in abstract_actions:
        # 使用中层世界模型预测子目标
        sg = refine_to_subgoal(aa, horizon//3)
        subgoals.append(sg)
    
    # 3. 低层执行: 生成具体动作序列
    actions = []
    z_curr = encode_current_state()
    for sg in subgoals:
        # 低层 MPC: 滚动优化
        for step in range(horizon//3):
            # 采样候选动作,用世界模型"想象"执行结果
            a_opt = optimize_low_level(z_curr, sg, lookahead=5)
            actions.append(a_opt)
            # 更新状态(使用预测,非真实执行)
            z_curr = world_model.step(z_curr, a_opt)
    
    return actions[0]  # 仅执行第一步,重新规划 (MPC 原则)

5.3.2 计算复杂度分析

设:

扁平搜索复杂度:$O(A^H)$(指数级)

分层搜索复杂度:$O(\sum_{l=1}^L A_l^{H_l})$(多项式级)

实例:$A=10, H=10$

将不可行的指数搜索转化为可行的多项式搜索。

5.4 当前进展与挑战

5.4.1 研究现状

5.4.2 关键挑战

挑战 具体表现 潜在方向
层级自动学习 当前需手工设计层级数和抽象粒度 元学习、神经架构搜索
跨层信息流 高层如何指导低层?低层反馈如何影响高层? 注意力机制、消息传递
不确定性传播 低层预测误差如何影响高层决策? 贝叶斯分层模型、置信度估计
评估困难 缺乏标准基准测试分层规划能力 设计分层任务基准(如长视频问答)

5.5 阶段总结:分层是通往规划的关键一步

✅ 核心进展:
   1. 形式化分层抽象框架,支持多时间尺度预测
   2. 证明分层搜索可将规划复杂度从指数降为多项式
   3. 初步展示在机器人任务中的应用潜力

⚠️ 待突破:
   1. 自动化层级学习:如何自适应确定抽象粒度?
   2. 跨层协调机制:高层意图如何有效约束低层执行?
   3. 评估体系:如何量化"规划能力"而非仅"预测精度"?

下一个问题:如何将 JEPA 世界模型与实际决策系统集成?

第六章:应用层

6.1 V-JEPA 2:规模化与后训练

6.1.1 规模扩展

维度 V-JEPA 1 V-JEPA 2 提升意义
数据量 2M 视频 (VideoMix2M) 22M 视频 (VideoMix22M) 10× 多样性,覆盖长尾场景
时序长度 16 帧 (~2 秒) 64 帧 (~16 秒) 8× 时间理解,支持事件级推理
模型规模 ViT-H/16 (630M) ViT-g/16 (1B) 更强表征能力,但需更高效训练
分辨率 224×224 224×224 (主) + 384×384 (实验) 平衡计算与细节保留

6.1.2 后训练技术

1. Progressive-Resolution Training(渐进式分辨率训练)

动机:直接训练长序列计算成本高

方案:
1. 阶段 1: 用 16 帧预训练大部分步骤(高效探索)
2. 阶段 2 (cooldown): 用 64 帧微调最后部分(适应长上下文)

类比:LLM 的 long-context 训练策略

2. LLM Conditioning(语言对齐)

架构:
[视频] → V-JEPA 编码器 → 表征 → 投影层 → LLM 输入 → [文本输出]

训练流程:
1. 冻结 V-JEPA,仅训练投影层 (image captioning)
2. 解冻投影层 + 部分 LLM,训练 image QA
3. 端到端微调 video QA

价值:将视频理解能力注入语言模型,支持视频问答

3. Action-Conditioned Post-Training(机器人规划)

核心思想:将动作作为条件输入,预测未来状态

训练数据:(状态 s_t, 动作 a_t, 下一状态 s_{t+1}) 三元组

损失函数:
ℓ = ‖P_φ(s_t, a_t) - E(s_{t+1})‖₁  # 预测下一状态的表征

规划时:
1. 编码当前状态 z_curr 和目标状态 z_goal
2. 搜索动作序列 {a_1,...,a_T} 最小化 ‖rollout(z_curr, {a_t}) - z_goal‖
3. 执行第一步,观察真实结果,重新规划 (MPC)

6.2 机器人规划:端到端示例

6.2.1 任务设定

任务:让机械臂把红色方块放到蓝色方块上

传统方法局限:
- 需要大量 (状态,动作) 标注数据
- 难以泛化到新场景(不同物体、光照、视角)
- 试错成本高(真实机器人易损坏)

6.2.2 JEPA 方案

1. 预训练阶段:
   - 用海量视频(非机器人数据)学习"物体如何运动"的世界模型
   - 关键:学习物理常识(重力、碰撞)、物体属性(可抓取性)

2. 微调阶段:
   - 用少量机器人数据(~62 小时)学习"我的动作如何影响世界"
   - 训练动作条件预测器 P_φ(s, a) → ŝ'

3. 规划阶段(在线):
   a. 编码:z_curr = E(当前图像), z_goal = E(目标图像)
   b. 搜索:用 CEM 优化动作序列最小化 ‖rollout(z_curr, {a_t}) - z_goal‖
   c. 执行:执行第一步动作 a_1*
   d. 观察:获取真实下一状态,更新 z_curr
   e. 重规划:重复 b-d (MPC)

6.2.3 优势分析

✅ 样本效率:世界知识来自视频,机器人数据仅用于"校准"
✅ 可解释性:预测的中间状态可可视化,便于调试
✅ 安全性:可在"想象中"测试危险动作,避免真实损坏
✅ 泛化性:学习的是通用物理规律,而非特定场景策略

⚠️ 挑战:
   - Reality Gap: 仿真/视频与真实机器人的差异
   - 动作空间离散化:连续动作的采样效率
   - 长程规划:误差累积问题

第七章:局限、挑战与未来方向

7.1 当前技术局限

7.1.1 表征学习的根本挑战

问题 1:信息瓶颈的自动平衡

理想:编码器自动保留"任务相关"信息,丢弃噪声
现实:需手工设计掩码策略、正则化系数

潜在方向:
- 自适应掩码:基于信息增益动态选择预测目标
- 元学习:学习"如何设计掩码"的元策略

问题 2:多模态融合的统一框架

现状:视觉、语言、动作的表征空间仍相对独立
挑战:如何设计统一的抽象空间,支持跨模态推理?

示例需求:
"听到'玻璃破碎声' → 预测'可能有物体掉落' → 规划'检查地面'"

7.1.2 规划与决策的系统挑战

问题 3:Reality Gap 的缓解

世界模型在视频上训练,但需在真实环境决策
→ 预测误差累积 → 规划失败

缓解策略:
1. 不确定性估计:预测时输出置信度,低置信时请求人类干预
2. 在线校正:执行后快速微调预测器(meta-learning)
3. 仿真增强:用物理引擎生成合成数据填补真实数据缺口

问题 4:配置器 (Configurator) 的学习

LeCun 架构中,Configurator 负责:
- 分解复杂任务为子目标
- 动态调整各模块的注意力焦点

开放问题:如何让 Configurator 自身可学习?
- 强化学习?元学习?还是需全新范式?

7.2 理论层面的开放问题

7.2.1 表征学习的理论保证

问题:在什么条件下,$\arg\min_\theta \mathcal{L}_{\text{JEPA}}$ 能学到任务相关表征?

部分进展

7.2.2 因果推理的整合

当前局限:JEPA 学习的是相关性 $P(y|x)$,而非因果 $P(y|do(x))$

潜在方向

1. 干预式训练:在预训练数据中引入"虚拟干预"
   - 例:模拟"如果杯子被推,它会掉落"

2. 结构约束:在预测器中编码因果图先验
   - 例:物体运动受物理定律约束

3. 反事实预测:训练模型回答"如果当时...会怎样"
   - 需设计新的损失函数和评估协议

参考文献

  1. 愿景论文:LeCun (2022). A Path Towards Autonomous Machine Intelligence
    https://arxiv.org/abs/2205.12868 : 理解 JEPA 在整体 AI 架构中的定位

  2. I-JEPA:Assran et al. (2023). Self-Supervised Learning from Images with JEPA
    https://arxiv.org/abs/2301.08243 掌握图像域实现细节

  3. V-JEPA:Bardes et al. (2023). Revisiting Feature Prediction for Video
    https://arxiv.org/abs/2304.06686 : 理解时序建模扩展

  4. V-JEPA 2:Meta AI (2024). Scaling Video JEPA
    https://ai.meta.com/blog/v-jepa-2/ : 了解规模化与后训练实践