Berkeley Function-Calling Leaderboard (BFCL)是首个全面评估LLM工具调用能力的榜单,涵盖多语言、多场景。
Live Leaderboard | Dataset
数据集特点
- 2K question-function-answer pairs
- 多语言:Python、Java、JavaScript、REST API、SQL
- 多场景:简单、并行、多函数调用
评估维度
| 维度 | 说明 |
|---|
| Function Relevance Detection | 函数相关性检测 |
| AST Analysis | 抽象语法树分析 |
| Execution Verification | 执行验证 |
Python场景
| 场景 | 说明 |
|---|
| Simple Function | 给一个,调用一个 |
| Multiple Function | 给多个API,选择一个调用 |
| Parallel Function | 给一个,并行调用多次 |
| Parallel Multiple | 给多个,选择调用哪些和次数 |
非Python场景
- Chatting Capability
- Function Relevance Detection
- REST API(检查HTTP code)
- SQL(非主要评价)
- Java/JavaScript(仅AST)
Comments