MMLU - 张芷铭的个人博客

GitHub - standardgalactic/mmlu: Measuring Massive Multitask Language Understanding | ICLR 2021 “Measuring Massive Multitask Language Understanding” 是关于评估大型多任务语言理解模型的研究。它包括一系列跨不同学科领域的测试，用于衡量语言模型如何理解和处理多样化的任务。该项目由多位研究者合作进行，其研究成果已在ICLR 2021上发表。项目中使用了OpenAI的API来评估各种模型，并提供了代码和测试数据供其他研究者使用。项目主页在GitHub上，可以查看具体的代码和测试工具。

💬 评论