ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

1个月前发布 34 00

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,与文本标记拼接后输入到大型语言模型(LLM...

收录时间:
2025-12-16
ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,与文本标记拼接后输入到大型语言模型(LLM)中。模型通过两种关键策略实现高效语义编码和几何结构理解:一是LLM嵌入的语义编码策略,通过混合语义损失提取高级语义;二是分层几何聚合策略,使LLM能关注点云的局部细节。

官网:https://github.com/Ivan-Tang-3D/ENEL


立即打开官网

数据统计

相关导航