张芷铭的个人博客

InternVL通过设计参数对齐的视觉编码器InternViT-6B和语言中间件QLLaMA,解决传统glue layer的连接效率问题。

核心设计

组件说明
InternViT-6B视觉编码器,6B参数
QLLaMA语言中间件

传统Glue Layer的缺陷

缺陷说明
参数体量悬殊视觉编码器与LLM参数差距大
表述不一致特征空间差异
连接效率低QFormer、linear projection能力有限

创新点

  • 参数对齐:视觉编码器与LLM参数量匹配
  • 统一特征空间:减少模态鸿沟
  • 高效连接:提升视觉-语言对齐效率

Comments