VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒
VideoChat是开源的实时数字人对话系统,支持语音输入和...
Qihoo-T2X 是360 AI 研究院和中山大学推出的基于代理标记化扩散 Transformer(PT-DiT)的高效多模态生成模型,Qihoo-T2X引入稀疏代理标记注意力机制,显著降低传统扩散 Transformer 在全局自注意力计算中的冗余性,结合窗口注意力和移位窗口注意力增强细节建模能力。Qihoo-T2X 支持多种任务,包括 文本到图像 (T2I)、 文本到视频 (T2V)和文本到多视图(T2MV)生成。