Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型

4个月前发布 111 00

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型，具备高级图像和视频理解能力。Qwen2-VL支持多种语言，能处理不同分辨率和长宽比的图片，实时分析动态视频内容。Qwen2-VL在多语言文本理解、文档理解等任务上表现卓越，适用于多模态应用开发，推动了AI在视觉理解和内容生成领域的进步。官网：https://qwenlm.githu...

收录时间：

2025-12-16

打开网站手机查看

Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型

Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型，具备高级图像和视频理解能力。Qwen2-VL支持多种语言，能处理不同分辨率和长宽比的图片，实时分析动态视频内容。Qwen2-VL在多语言文本理解、文档理解等任务上表现卓越，适用于多模态应用开发，推动了AI在视觉理解和内容生成领域的进步。

官网：https://qwenlm.github.io/zh/blog/qwen2-vl/

立即打开官网

数据统计

相关导航

ViewExtrapolator – 南洋理工联合UCAS团队推出的新型视图合成方法

ViewExtrapolator是南洋理工大学、UCAS研究...

Perplexity macOS客户端 – AI搜索工具，实时联网整合多源内容

Perplexity macOS客户端是 Perplexit...

MoviiGen 1.1 – AI视频生成模型，支持生成电影级画质

MoviiGen 1.1 是ZulutionAI 推出的专注...

MinT – 生成顺序事件的文本转视频模型，灵活控制时间戳

MinT（Mind the Time）是Snap Resea...

Pix2Gif – 微软推出的静态图像转动态GIF的扩散模型

Pix2Gif是由微软研究院的研究人员提出的一个基于运动引导...

3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架

3DV-TON（Textured 3D-Guided Con...

FaceSwap – 开源的在线AI换脸工具，深度伪造视频和图像

FaceSwap 是一个开源的 AI换脸软件，用于创建深度...

Boximator – 字节推出的控制视频生成中对象运动的框架

Boximator是由字节跳动的研究团队开发的一种视频合成技...