V-JEPA：Meta推出的视觉模型，可以通过观看视频来学习理解物理世界

4个月前发布 109 00

V-JEPA（Video Joint-Embedding Predictive Architecture，视频联合嵌入预测架构）是由Meta的研究人员推出的一种新型的视频自监督学习方法，它专注于通过特征预测来学习视频的视觉表示。这种方法的核心思想是让模型能够预测视频中一个区域（称为目标区域y）的特征表示，这个预测基于另一个区域（称为源区域...

收录时间：

2025-12-16

打开网站手机查看

V-JEPA：Meta推出的视觉模型，可以通过观看视频来学习理解物理世界

V-JEPA：Meta推出的视觉模型，可以通过观看视频来学习理解物理世界

V-JEPA（Video Joint-Embedding Predictive Architecture，视频联合嵌入预测架构）是由Meta的研究人员推出的一种新型的视频自监督学习方法，它专注于通过特征预测来学习视频的视觉表示。这种方法的核心思想是让模型能够预测视频中一个区域（称为目标区域y）的特征表示，这个预测基于另一个区域（称为源区域x）的特征表示。这种预测过程是在没有外部监督（如标注或预训练图像编码器）的情况下进行的，完全依赖于视频数据本身的结构和内容。

官网：https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

立即打开官网

数据统计

相关导航

AniTalker – 上海交大开源的对口型说话视频生成框架

AniTalker是由来自上海交大X-LANCE实验室和思必...

FlagevalMM – 智源开源的多模态模型评测框架

FlagEvalMM是北京智源人工智能研究院开源的多模态模型...

Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型

Motion Prompting是 Google DeepM...

SmoothCache – Roblox 和女王大学推出用于DiT的通用推理加速技术

SmoothCache 是用在Diffusion Trans...

AdaCache – Meta推出加速AI视频实时高质量生成的开源项目

AdaCache（Adaptive Caching）是Met...

Wan2.1 – 阿里开源的AI视频生成大模型

Wan2.1是阿里云开源的 AI视频生成大模型，具备强大的...

T2V-Turbo – 谷歌开源的文本到视频生成模型

T2V-Turbo是一种先进的文本到视频生成模型，由Goog...

InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

InstructMove是东京大学和Adobe公司联合推出的...