LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA是的多模态大型语言模型(MLLM),是香港...
VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额外模型即可直接从参考图片中提取和注入主题特征,实现个性化视频内容的一键生成。框架基于VDM的内在能力进行细粒度特征提取,通过空间自注意力机制实现特征注入,保证了视频生成的多样性和主题一致性。VideoMaker在保持视频多样性的同时,确保了与参考图片中的主题特征高度契合,为个性化视频创作带来了极大的便捷性和灵活性。