Share your thoughts, 1 month free Claude Pro on usSee more

Instruction-guided image editing preference prediction on GenAI-Bench

67.5Accuracy

REWARDHARNESS (Qwen)

Updated 2mo ago

Evaluation Results

Method	Links
REWARDHARNESS (Qwen) 2026.05		67.5
EDITREWARD 2025.09		65.72
EditReward (MiMo) 2026.05		65.7
REWARDHARNESS (Gemini-2.0-Flash) 2026.05		64.4
EditReward (Qwen) 2026.05		64
EDITREWARD 2025.09		63.97
ADIEE 2025.09		59.96
GPT-5 2025.09		59.61
GPT-5 2026.05		59.6
MiMo-VL-7B 2026.05		57.9
MiMo-VL-7B-SFT-2508 2025.09		57.89
Gemini-2.5-Flash 2025.09		57.01
Gemini-2.5-Flash 2026.05		57
GPT-4o 2025.09		53.54
GPT-4o 2026.05		53.5
Gemini-2.0-Flash 2025.09		53.32
Gemini-2.0-Flash 2026.05		53.3
Claude-Haiku-4.5 2026.05		47.1
Qwen2.5-VL-3B-Inst 2025.09		42.76
Qwen2.5-VL-7B 2026.05		40.5
Qwen2.5-VL-7B-Inst 2025.09		40.48
Qwen2.5-VL-32B 2026.05		39.3
Qwen2.5-VL-32B-Inst 2025.09		39.28
Random 2025.09		25.9