Share your thoughts, 1 month free Claude Pro on usSee more

Multi-agent Reasoning on Ultrafeedback

73.66Accuracy

OW-L

Updated 2mo ago

Evaluation Results

Method	Links
OW-L 2025.10		73.66
OW-I 2025.10		73.66
ISP 2025.10		73.26
Single Best 2025.10		73.14
OW-I 2025.10		72.44
OW-L 2025.10		72.44
MV 2025.10		72.21
ISP 2025.10		71.18
MV 2025.10		70.23