StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

4个月前发布 145 00

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统，能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成，能有效处理数分钟长的视频，在MovieQA任务中展现出比现有模型更高的准...

收录时间：

2025-12-16

打开网站手机查看

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统，能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成，能有效处理数分钟长的视频，在MovieQA任务中展现出比现有模型更高的准确率，比最强基线Gemini-1.5-pro高9.5%的准确率。

官网：https://github.com/hyc2026/StoryTeller

立即打开官网

数据统计

相关导航

HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全...

LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA（Low-Latency Interactive A...

VideoTuna – AI视频生成应用代码库，支持多模型和全面的视频生成流程

VideoTuna是集成多种AI视频生成模型的代码库，支持文...

TheoremExplainAgent – AI教学双智能体，数理化定理自动转动画

TheoremExplainAgent（TEA）是滑铁卢大学...

MAGREF – 字节跳动推出的多主体视频生成框架

MAGREF（Masked Guidance for Any...

Mubert

Mubert 是 AI音乐生成平台，通过简单易用的方式为用...

Open-Sora – 开源的类Sora架构的视频生成模型和复现方案

Open-Sora是由Colossal-AI团队开源的视频生...

VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标

VE-Bench 是北京大学的研究团队 MMCAL 最近发布...