Share your thoughts, 1 month free Claude Pro on usSee more

Reinforcement Learning on MountainCar v0 (test)

-101.72Total Reward

Orthogonal DT

Updated 1mo ago

Evaluation Results

Method	Links
Orthogonal DT 2020.12		-101.72	106.8
Closed-form policy 2020.12		-102.61	54.7
Soft Q Networks 2020.12		-104.58	31,079.2
Tabular SARSA 2020.12		-105.99	381.5
Oblique DT 2020.12		-106.02	46.8
Double Deep Q Network 2020.12		-107.83	46,681.6
Deep Q Network 2020.12		-108.85	984,160.3
Orthogonal DT 2020.12		-116.68	35.6
Nonlinear DT (Open loop) 2020.12		-128.87	66.8
Oblique DT 2020.12		-200	0