SOTA Reinforcement Learning on CartPole v1 (test) and PapersWithCode

500Total Reward

Qualitatively measured policy discrepancy w/ β

Updated 1mo ago

Evaluation Results

Method
Qualitatively measured policy discrepancy w/ β 2020.12	500	1,157.2
Qualitatively measured policy discrepancy w/ β 2020.12	500	1,157.2
Qualitatively measured policy discrepancy w/ η 2020.12	500	1,157.2
Differentiable Decision Trees 2020.12	500	106.8
Differentiable Decision Trees 2020.12	500	53.4
two-level optimization scheme 2020.12	500	35.6
two-level optimization scheme 2020.12	500	21.1
Qualitatively measured policy discrepancy w/ β 2020.12	499.9	1,157.2
General Q(λ) 2020.12	499.9	1,157.2
Qualitatively measured policy discrepancy w/ η 2020.12	499.4	1,157.2
Importance-Sampling 2020.12	498.7	1,157.2
Peng & Williams's Q(λ) 2020.12	496.7	1,157.2
Qualitatively measured policy discrepancy w/ β 2020.12	494.9	1,157.2
Tree-Backup(λ) 2020.12	494.7	1,157.2
Qualitatively measured policy discrepancy w/ η 2020.12	493.3	1,157.2
Qualitatively measured policy discrepancy w/ η 2020.12	493.2	1,157.2
Q(λ) 2020.12	489.9	1,157.2
Watkins's Q(λ) 2020.12	484.3	1,157.2
Retrace(λ) 2020.12	461.1	1,157.2
Differentiable Decision Trees 2020.12	388.76	89.2
Deep Q Network 2020.12	327.3	1,157.2
Kronecker-Factored Approximate Curvature 2020.12	321	70,786.2
Bayesian Deep Reinforcement Learning weighted 2020.12	136.75	8,090.4
Bayesian Deep Reinforcement Learning 2020.12	113.52	8,090.4
Deep Q Network 2020.12	98.33	5,170,174.8