- 张芷铭的个人博客

大模型评测是衡量大规模 AI 模型性能的多维度过程，涵盖准确性、泛化能力、公平性、效率和安全性。

评测维度

方法	说明
基准测试	ImageNet、CIFAR-10、GLUE、SuperGLUE 等标准数据集
交叉验证	多次训练测试减少偏差
对抗测试	对抗样本测试鲁棒性
用户体验测试	用户反馈和实际应用评估

论文	主题
Adversarial Examples Are Not Bugs, They Are Features	对抗样本与模型安全性
Measuring the Reliability of Large Language Models	LLM 可靠性评测方法和指标