General Language Model Evaluation on WildBench

26.95WildBench Score

PUGC

Updated 4mo ago

Evaluation Results

Method	Links
PUGC 2025.06		26.95	46.56	33.36	11.43	40.2	17.16
Mistral-7B-instruct 2025.06		25.63	42.07	30.06	10.08	40.1	18.4