张芷铭的个人博客

大模型评测是衡量大规模 AI 模型性能的多维度过程,涵盖准确性、泛化能力、公平性、效率和安全性。

评测维度

维度说明
性能评估准确性、精度、召回率等指标
泛化能力不同领域和任务的表现
公平性和偏见性别、种族等偏见检测
效率和资源消耗训练时间、推理速度、内存占用
安全性和鲁棒性对抗样本测试

主要评测方法

方法说明
基准测试ImageNet、CIFAR-10、GLUE、SuperGLUE 等标准数据集
交叉验证多次训练测试减少偏差
对抗测试对抗样本测试鲁棒性
用户体验测试用户反馈和实际应用评估

重要基准

基准论文说明
GLUEopenreview.netNLP 多任务评测平台
SuperGLUEarxiv.orgGLUE 增强版,更具挑战性
BERTarxiv.org预训练方法与多任务表现

关键论文

论文主题
Adversarial Examples Are Not Bugs, They Are Features对抗样本与模型安全性
Measuring the Reliability of Large Language ModelsLLM 可靠性评测方法和指标

评测流程

  1. 选择基准数据集和任务
  2. 设计评测指标
  3. 执行测试并收集结果
  4. 分析性能、公平性、安全性
  5. 与基线模型对比

Comments