Share your thoughts, 1 month free Claude Pro on usSee more

String-level response similarity on RA-QA Multiple-choice, Discriminative tasks

0.85BERTScore

CareAQA-operaCT

Updated 1mo ago

Evaluation Results

Method	Links
CareAQA-operaCT 2026.03		0.85	82.96
RAMoEA-QA 2026.03		0.85	83.17
CareAQA-operaGT 2026.03		0.84	81.72
PENGI 2026.03		-0.08	0