Share your thoughts, 1 month free Claude Pro on usSee more

Meeting Information Extraction on Merged Typed Benchmark 113 meetings (Pairwise Evaluation)

-0.139Mean Difference

gpt-41-mini vs gpt-51

Updated 3mo ago

Evaluation Results

Method	Links
gpt-41-mini vs gpt-51 2026.04		-0.139	-	-	-	3	11	99	2.09	-
gpt-41-mini vs gpt-5-mini 2026.04		-0.072	-	-	-	15	21	77	3.26	-
gpt-41-mini vs gpt-51 2026.04		-0.071	-	-	-	3	1	109	2.71	-
gpt-5-mini vs gpt-51 2026.04		-0.067	-	-	-	11	17	85	5.1	-
gpt-5-mini vs gpt-51 2026.04		-0.043	-	-	-	9	1	103	4.63	-
gpt-41-mini vs gpt-5-mini 2026.04		-0.028	-	-	-	20	2	91	5.25	-
gpt-41-mini vs gpt-5-mini 2026.04		0.006	-	-	-	60	2	51	0.4478	-
gpt-5-mini vs gpt-51 2026.04		0.021	-	-	-	64	2	47	0.257	-
gpt-41-mini vs gpt-51 2026.04		0.027	-	-	-	69	1	43	0.0533	-