Share your thoughts, 1 month free Claude Pro on usSee more

Domain-specific language task evaluation on CSEBenchmark

60.2Accuracy

HyTuning

Updated 3mo ago

Evaluation Results

Method	Links
HyTuning 2026.04		60.2	2
Qwen2.5-14B 2026.04		55.1	3.1
HyTuning 2026.04		48	5.7
Qwen2.5-7B 2026.04		46	9.8
HyTuning 2026.04		39.1	7
INTUITOR 2026.04		32.1	14.7
RLPR 2026.04		31.9	17.5
Qwen2.5-3B 2026.04		31.8	17.6
HPT 2026.04		31.8	17.6
SFT 2026.04		31.7	16.9
RLVR 2026.04		31.7	16.8
RD 2026.04		31.3	17.5