Share your thoughts, 1 month free Claude Pro on usSee more

Text Similarity on Insurance tasks HQ subset N = 1334

89.9Mean Score

DeepSeek-R1 + Fine-tune

Updated 5mo ago

Evaluation Results

Method	Links
DeepSeek-R1 + Fine-tune 2026.02		89.9	0.132	94.6	100	86.3
Gemini-2.5-Flash 2026.02		81.7	0.146	86.7	97.7	73.3
GPT-4o-mini 2026.02		80.6	0.149	85.6	97.4	70.5
Claude-Haiku-4.5 2026.02		77.6	0.159	81.9	97	62.4
GPT-4.1 2026.02		76.7	0.152	80.9	97.7	60.5
GPT-5.2 2026.02		73.6	0.155	77.3	100	50.7