mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token
mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG...
EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,及推出一种新颖的轨迹分割策略,用夹爪的开合状态和机器人手臂的运动轨迹,增强有根据的任务推理和前瞻性空间推理,在真实世界的机器人任务中,尤其是在需要空间推理的任务上,取得显著的性能提升。