张芷铭的个人博客

HERMES 模拟人类情景与语义记忆机制,实现长视频的高效理解。

核心模块

模块功能优势
ECO (Episodic COmpressor)合并相似帧压缩视频解决长距离依赖
SeTR (Semantics reTRiever)跨帧语义检索提取高层语义

方法架构

  1. ViT-G/14 编码视频帧
  2. ECO 压缩为情景记忆
  3. SeTR 提取语义特征
  4. Hierarchical Q-Former 融合
  5. Vicuna-7B 生成回答

性能

数据集提升
LVU 分类+7.3% (70.3% vs 63.0%)
MovieChat-1k 问答+14.9% (84.9% vs 70.0%)
推理速度+46% vs MA-LMM

消融实验

  • 移除 ECO:准确率下降 23.5%
  • 移除 SeTR:准确率下降 5%
  • 最优配置:情景记忆 20 帧,SeTR 保留 20%

应用场景

  • 长视频摘要
  • 视频内容审核
  • 高效视频检索

项目页面:https://joslefaure.github.io/assets/html/hermes.html

Comments