Social Reasoning

Benchmarks

Dataset Name	SOTA Method	Metric
SimpleToM	GPT-5	Accuracy99.24	29	4mo ago
TactfulToM	DeepSeek-R1	Accuracy69.69	26	4mo ago
Hi-ToM	SocialR1-8B	Accuracy70.83	26	4mo ago
MotiveBench		Accuracy94	26	4mo ago
EmoBench		Accuracy80.39	26	4mo ago
ToMBench Hard (val)	SocialR1-8B	Accuracy62.79	26	4mo ago
ToMBench		Accuracy78.34	26	4mo ago
Social regime (n = 300)	Situational leadership	Exact Match Accuracy51.3	21	1mo ago
GRASP-Bench (test)		T1 Accuracy42.9	18	2mo ago
Sotopia hard		Rel Score2.4	17	3mo ago
MotiveBench OOD (test)	GPT-4o	Amazon Score0.9011	17	4mo ago
TVQA+	Qwen3-VL-8B + SGR	Accuracy73.2	15	2mo ago
Online-MMSI	Qwen3.5-9B (Thinking Mode)	STI63.1	15	2mo ago
MMSI	Qwen3.5-9B + SGR	STI71.2	15	2mo ago
Sotopia (all)		Rel Score2.73	15	3mo ago
SIQA	Autoregressive	Performance (%)15.2	6	4mo ago
When2Call	AutoAdapt	Accuracy54.5	5	4mo ago
EQBench 3	CTC-GRPO 32B	Rubric Score84.5	4	1mo ago

Showing 18 of 18 rows