HERMES temporal-coHERent long-forM understanding with Episodes and Semantics

#视频分类 #文献阅读

提出 HERMES 框架，包含两个关键模块：

Episodic COmpressor (ECO)：
- 功能：通过迭代合并相似帧（基于余弦相似度），将长视频压缩为少量关键片段（episodes）。
- 优势：解决长距离依赖问题，保留时序连贯性。
- 算法：动态维护记忆缓冲区，合并最相似帧直至容量限制（见Algorithm 1）。
Semantics reTRiever (SeTR)：
- 功能：通过跨帧语义检索（如每隔k帧采样并合并相似内容），提取高层语义信息。
- 优势：降低特征维度，保留全局上下文。

数据集：
- 分类任务：LVU（电影内容）、Breakfast（ instructional视频）、COIN（多样化活动）。
- 问答任务：MovieChat-1k（长视频问答）。
性能：
- SOTA对比：
  - LVU分类准确率提升7.3%（70.3% vs. 63.0%）。
  - MovieChat-1k问答准确率提升14.9%（84.9% vs. 70.0%）。
- 效率：相比MA-LMM，推理速度提升46%。
消融实验：
- ECO和SeTR缺一不可（移除ECO导致准确率下降23.5%，移除SeTR下降5%）。
- 最优超参数：情景记忆容量20帧，SeTR保留比例20%。

HERMES通过模拟人类记忆机制，首次在长视频理解中实现情景与语义的协同建模，显著提升性能与效率，为后续研究树立了新基准。

注：如需更详细的技术细节（如算法伪代码、模型结构图），可参考原文附录或项目页面（链接）。