Share your thoughts, 1 month free Claude Pro on usSee more

Robustness Evaluation on Perturbation Dataset

62.56Change Accuracy

L4L

Updated 4mo ago

Evaluation Results

Method	Links
L4L 2025.11		62.56
GPT-5.2 2025.11		59.63
DeepSeek v3 2025.11		55.93
Claude 4 Sonnet 2025.11		51.5
GPT-4o 2025.11		50.67
GPT o4-mini 2025.11		46.33
DISC-LawLLM 2025.11		23.17
LexiLaw 2025.11		0