Dropout Q-Functions for Doubly Efficient Reinforcement Learning

About

Randomized ensembled double Q-learning (REDQ) (Chen et al., 2021b) has recently achieved state-of-the-art sample efficiency on continuous-action reinforcement learning benchmarks. This superior sample efficiency is made possible by using a large Q-function ensemble. However, REDQ is much less computationally efficient than non-ensemble counterparts such as Soft Actor-Critic (SAC) (Haarnoja et al., 2018a). To make REDQ more computationally efficient, we propose a method of improving computational efficiency called DroQ, which is a variant of REDQ that uses a small ensemble of dropout Q-functions. Our dropout Q-functions are simple Q-functions equipped with dropout connection and layer normalization. Despite its simplicity of implementation, our experimental results indicate that DroQ is doubly (sample and computationally) efficient. It achieved comparable sample efficiency with REDQ, much better computational efficiency than REDQ, and comparable computational efficiency with that of SAC.

Takuya Hiraoka, Takahisa Imagawa, Taisei Hashimoto, Takashi Onishi, Yoshimasa Tsuruoka• 2021

Related benchmarks

Task	Dataset	Result
Continuous Control	MuJoCo Ant v4	Average Return5.97e+3	46
Continuous Control	MuJoCo Walker2d v4	--	39
Continuous Control	MuJoCo HalfCheetah v4	Average Return1.11e+4	36
Continuous Control	Gym MuJoCo Hopper v4	Average Return2.80e+3	15
Continuous Control	Gym MuJoCo Humanoid v4	Average Return5.38e+3	15
Continuous Control	Gym MuJoCo Suite Aggregate	IQM1.108	15
Tractography	ISMRM in silico 2015	VC (%)84.8	11
6-DOF Helix Trajectory Tracking	BlueROV2 Heavy Centre Locked Helix Experiment 1.0 (real-world deployment)	Positional Error X (m)0.088	4
Disturbance Rejection	Disturbance rejection experiments	Positional Error X0.17	4

Showing 9 of 9 rows

Other info

Follow for update

@wizwand_team Discord