张芷铭的个人博客

📅 0001-01-01

HERMES 模拟人类情景与语义记忆机制，实现长视频的高效理解。

核心模块

模块	功能	优势
ECO (Episodic COmpressor)	合并相似帧压缩视频	解决长距离依赖
SeTR (Semantics reTRiever)	跨帧语义检索	提取高层语义

方法架构

ViT-G/14 编码视频帧
ECO 压缩为情景记忆
SeTR 提取语义特征
Hierarchical Q-Former 融合
Vicuna-7B 生成回答

性能

数据集	提升
LVU 分类	+7.3% (70.3% vs 63.0%)
MovieChat-1k 问答	+14.9% (84.9% vs 70.0%)
推理速度	+46% vs MA-LMM

消融实验

移除 ECO：准确率下降 23.5%
移除 SeTR：准确率下降 5%
最优配置：情景记忆 20 帧，SeTR 保留 20%

应用场景

长视频摘要
视频内容审核
高效视频检索

项目页面：https://joslefaure.github.io/assets/html/hermes.html

Comments