TTOpt: A Maximum Volume Quantized Tensor Train-based Optimization and its Application to Reinforcement Learning

About

We present a novel procedure for optimization based on the combination of efficient quantized tensor train representation and a generalized maximum matrix volume principle. We demonstrate the applicability of the new Tensor Train Optimizer (TTOpt) method for various tasks, ranging from minimization of multidimensional functions to reinforcement learning. Our algorithm compares favorably to popular evolutionary-based methods and outperforms them by the number of function evaluations or execution time, often by a significant margin.

Konstantin Sozykin, Andrei Chertkov, Roman Schutski, Anh-Huy Phan, Andrzej Cichocki, Ivan Oseledets• 2022

Related benchmarks

Task	Dataset	Result
Reinforcement Learning	LunarLanderContinuous v2	Mean Reward290.3	65
Reinforcement Learning	HalfCheetah v3	Mean Reward4.21e+3	34
Reinforcement Learning	InvertedPendulum v2	Mean Reward1.00e+3	27
Global Optimization	F2 benchmark function	Final Error2.90e-7	25
Global Optimization	F6 benchmark function	F6 Final Error0.11	19
Reinforcement Learning	Swimmer v3	Mean Reward357.5	15
Global Optimization	F1	Final Error3.90e-6	14
Global Optimization	F8 benchmark function	Final Error (ε)4.60e-11	14
Global Optimization	F10 benchmark function	Final Error1.30e-4	14
Global Optimization	F9 benchmark function	Final Error0.18	14

Showing 10 of 38 rows

Other info

Code

Follow for update

@wizwand_team Discord