Share your thoughts, 1 month free Claude Pro on usSee more

Tool Calling on HotpotQA (evaluation)

70.4Accuracy

Baseline (normal SFT)

Updated 2mo ago

Evaluation Results

Method	Links
Baseline (normal SFT) 2026.05		70.4	2.3
AsyncIO (Async-SFT) 2026.05		68.7	1.1
Baseline (normal SFT) 2026.05		68.6	2.7
AsyncIO (Async-SFT) 2026.05		67.5	1.2
AsyncIO (normal SFT) 2026.05		33.4	-
AsyncIO (normal SFT) 2026.05		23.6	-
AsyncIO (no SFT) 2026.05		20.1	-
Baseline (no SFT) 2026.05		17.2	-
Baseline (no SFT) 2026.05		15.1	-
AsyncIO (no SFT) 2026.05		13.9	-