InternVL通过设计参数对齐的视觉编码器InternViT-6B和语言中间件QLLaMA,解决传统glue layer的连接效率问题。
核心设计
| 组件 | 说明 |
|---|---|
| InternViT-6B | 视觉编码器,6B参数 |
| QLLaMA | 语言中间件 |
传统Glue Layer的缺陷
| 缺陷 | 说明 |
|---|---|
| 参数体量悬殊 | 视觉编码器与LLM参数差距大 |
| 表述不一致 | 特征空间差异 |
| 连接效率低 | QFormer、linear projection能力有限 |
创新点
- 参数对齐:视觉编码器与LLM参数量匹配
- 统一特征空间:减少模态鸿沟
- 高效连接:提升视觉-语言对齐效率
张芷铭的个人博客
Comments