Transformer

Benchmarks

Task Name	Dataset Name	SOTA Result
Transformer Inference	12-layer Transformer 1024 tokens (inference)	Speedup342.74	24
Jacobian computation	Transformer	Median Runtime (ms)0.28	8
Scaling Efficiency	Transformer 128 tokens	Scaling Efficiency (Linear Projection)93.29	5
Finding Optimal Elimination Order	Transformer	Number of Multiplications4,656	5

Showing 4 of 4 rows