Our new X account is live! Follow @wizwand_team for updates
Home
/
Benchmarks
Claim Verification on AVeriTeC (dev)
Loading...
68
Supported F1
Althea
39.92
47.21
54.5
61.79
Dec 29, 2025
Supported F1
Refuted F1
NEE F1
Conflicting F1
Macro F1
Updated 4d ago
Evaluation Results
Method
Method
Links
Supported F1
Refuted F1
NEE F1
Conflicting F1
Macro F1
Althea
2025.12
68
80
13
13
44
gpt-3.5-turbo
prompting=few-shot, ev...
2025.12
62
71
2
20
39
SynApSe
retrieval module=quest...
2025.12
61
84
12
16
43
baseline
2025.12
41
61
10
16
23
Feedback
Search any
task
Search any
task