LMSYS-Chat

Benchmarks

Task Name	Dataset Name	SOTA Result
Backdoor Detection	LMSYS-Chat-1M	FPR on LMSYS0.1	50
Chatbot workload	LMSYS-Chat-1M	Average PTLA (s/token)0.47	28
LLM Inference Scheduling	LMSYS-Chat-1M	Average Per-token Latency (s/token)0.1432	16
Text Compression	LMSYS-Chat (Cluster 9: Casual Q&A)	Compression Ratio0.1	6
Text Compression	LMSYS-Chat Cluster 8: Translation Language	Compression Ratio0.08	6
Text Compression	LMSYS-Chat Cluster 7: Science/Math	Compression Ratio0.39	6
Text Compression	LMSYS-Chat Cluster 6: Philosophy/Ethics	Compression Ratio0.09	6
Text Compression	LMSYS-Chat (Cluster 5: Business/Professional)	Compression Ratio0.09	6
Text Compression	LMSYS-Chat Cluster 4: Roleplay Fiction	Compression Ratio0.4	6
Text Compression	LMSYS-Chat Cluster 3: Academic/Education	Compression Ratio0.09	6
Text Compression	LMSYS-Chat Cluster 2: Code/Technical	Compression Ratio0.1	6
Text Compression	LMSYS-Chat Cluster 1: Creative Writing	Compression Ratio0.11	6
Text Compression	LMSYS-Chat Cluster 0: General Chat	Compression Ratio0.11	6
Text Compression	LMSYS-Chat Overall	Compression Ratio0.09	6
Ranking Prediction	LMSYS-Chat-1M Llama	Kendall's Tau0.65	4
Toxicity Detection	LMSYS-Chat-1M	Accuracy0.9669	4
Multi-Objective Routing in LLM Serving	LMSYS-Chat-1M Non-stationary rate-shift workload midpoint shift (λ = 0.4 to 0.6) Vidur Simulation Framework	Average EEL1.47	3
Complexity prediction	LMSYS-CHAT-1M	ROC-AUC90.1	3
Long-horizon evaluation	LMSYS-Chat-1M 144 trajectories with more than 50 turns	Overall MAL3.67	2

Showing 19 of 19 rows