Share your thoughts, 1 month free Claude Pro on usSee more

LLM Behavior

95Response Rate (RR)

DeepSeek-v4

Updated 2mo ago

Evaluation Results

Method	Links
DeepSeek-v4 2026.05		95	85
GPT-5.4 2026.05		94	42
GPT-5.5 2026.05		92	54
Sonnet-4.6 2026.05		91	69
Kimi-K2.6 2026.05		91	78
Gemini-3.1 2026.05		90	83
Kimi-K2.6 2026.05		8	5
GPT-5.5 2026.05		6	0
Sonnet-4.6 2026.05		6	2
GPT-5.4 2026.05		5	0
DeepSeek-v4 2026.05		5	6
Gemini-3.1 2026.05		3	5