Share your thoughts, 1 month free Claude Pro on usSee more

Agent Tool Use on T-eval (Held-Out)

71.8Accuracy

SHAD+RFT

Updated 4mo ago

Evaluation Results

Method	Links
SHAD+RFT 2024.12		71.8
SHAD+α-FT 2024.12		68.8
Rho-1 2024.12		68.4
SHAD+RFT 2024.12		68.3
SFT 2024.12		67
Rho-1 2024.12		67
RewardFT 2024.12		66.4
RewardFT 2024.12		66.3
SFT 2024.12		64.2
SHAD+α-FT 2024.12		63.8
Regex+RFT 2024.12		61.1
Regex 2024.12		58.6
Regex+RFT 2024.12		57.6
Regex 2024.12		54.3