Share your thoughts, 1 month free Claude Pro on usSee more

Role-playing Agent Evaluation on PersonaGym

4.13Action Justification

GPT-4.1

Updated 2mo ago

Evaluation Results

Method	Links
GPT-4.1 2026.05		4.13	4.13	4	4.25	4.88	4.28
DPO-Qwen3-8B 2026.05		3.88	3.63	3.75	4.25	4.92	4.09
SFT-Qwen3-8B 2026.05		3.5	3.63	3.5	3.88	4.93	3.88
Qwen3-8B 2026.05		3.38	3.13	3.13	3.75	4.91	3.66