Share your thoughts, 1 month free Claude Pro on usSee more

Unit test generation on MBPP+ (test)

0.53Error Rate

CVeDRL

Updated 4mo ago

Evaluation Results

Method	Links
CVeDRL 2026.01		0.53	15.79	83.68	97.37	3.13
CodeRM 2026.01		2.44	52.86	44.7	97.11	7.88
GPT-4o 2026.01		3.98	29.89	66.13	96.91	6.12
GPT-3.5 2026.01		5.14	40.15	54.71	96.65	5.97
Qwen3 2026.01		11.42	31.39	57.19	92.44	7.47
LLaMA3.1 2026.01		15.79	47.53	36.68	95.93	4.13
Qwen3 2026.01		28.18	31.53	40.29	90.12	3.48