Share your thoughts, 1 month free Claude Pro on usSee more

Unit test generation on HumanEval+ (test)

1.27Error Rate

CVeDRL

Updated 5mo ago

Evaluation Results

Method	Links
CVeDRL 2026.01		1.27	12.79	85.94	97.53	2.41
GPT-4o 2026.01		1.98	17.21	80.81	96.91	5.35
CodeRM 2026.01		2.44	64.73	32.83	96.97	7.15
GPT-3.5 2026.01		3.14	26.32	70.54	96.73	4.13
Qwen3 2026.01		9.43	25.31	65.26	89.53	8.17
LLaMA3.1 2026.01		10.88	37.19	51.93	94.6	3.97
Qwen3 2026.01		20.7	44.82	34.48	73.19	4.38