Share your thoughts, 1 month free Claude Pro on usSee more

Tool-use Agent Tasks on TinyAgent (500 samples, evaluation)

66.8Accuracy

Baseline (normal SFT)

Updated 2mo ago

Evaluation Results

Method	Links
Baseline (normal SFT) 2026.05		66.8	5	-
Baseline (normal SFT) 2026.05		65.6	4.1	-
AsyncIO (Async-SFT) 2026.05		65.2	2.5	-
AsyncIO (Async-SFT) 2026.05		62.1	2.5	-
Baseline 2026.05		54.9	7.6	-
AsyncIO 2026.05		53.2	4.4	1.7
AsyncIO (normal SFT) 2026.05		14.3	-	-
AsyncIO (normal SFT) 2026.05		10.8	-	-
Baseline (no SFT) 2026.05		3.2	-	-
AsyncIO (no SFT) 2026.05		2.3	-	-
AsyncIO (no SFT) 2026.05		2.1	-	-
Baseline (no SFT) 2026.05		1.5	-	-