HERMES 模拟人类情景与语义记忆机制,实现长视频的高效理解。
核心模块
| 模块 | 功能 | 优势 |
|---|---|---|
| ECO (Episodic COmpressor) | 合并相似帧压缩视频 | 解决长距离依赖 |
| SeTR (Semantics reTRiever) | 跨帧语义检索 | 提取高层语义 |
方法架构
- ViT-G/14 编码视频帧
- ECO 压缩为情景记忆
- SeTR 提取语义特征
- Hierarchical Q-Former 融合
- Vicuna-7B 生成回答
性能
| 数据集 | 提升 |
|---|---|
| LVU 分类 | +7.3% (70.3% vs 63.0%) |
| MovieChat-1k 问答 | +14.9% (84.9% vs 70.0%) |
| 推理速度 | +46% vs MA-LMM |
消融实验
- 移除 ECO:准确率下降 23.5%
- 移除 SeTR:准确率下降 5%
- 最优配置:情景记忆 20 帧,SeTR 保留 20%
应用场景
- 长视频摘要
- 视频内容审核
- 高效视频检索
项目页面:https://joslefaure.github.io/assets/html/hermes.html
张芷铭的个人博客
Comments