张芷铭的个人博客

Berkeley Function-Calling Leaderboard (BFCL)是首个全面评估LLM工具调用能力的榜单,涵盖多语言、多场景。

Live Leaderboard | Dataset

数据集特点

  • 2K question-function-answer pairs
  • 多语言:Python、Java、JavaScript、REST API、SQL
  • 多场景:简单、并行、多函数调用

评估维度

维度说明
Function Relevance Detection函数相关性检测
AST Analysis抽象语法树分析
Execution Verification执行验证

Python场景

场景说明
Simple Function给一个,调用一个
Multiple Function给多个API,选择一个调用
Parallel Function给一个,并行调用多次
Parallel Multiple给多个,选择调用哪些和次数

非Python场景

  • Chatting Capability
  • Function Relevance Detection
  • REST API(检查HTTP code)
  • SQL(非主要评价)
  • Java/JavaScript(仅AST)

Comments