TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Atari Games	Atari 2600 Beam Rider	GDI-I3	Score	162100	# 6
Atari Games	Atari 2600 Berzerk	GDI-I3	Score	7607	# 9
Atari Games	Atari 2600 Bowling	GDI-I3	Score	201.9	# 6
Atari Games	Atari 2600 Boxing	GDI-H3	Score	100	# 1
Atari Games	Atari 2600 Centipede	GDI-I3	Score	155830	# 8
Atari Games	Atari 2600 Chopper Command	GDI-H3	Score	999999	# 1
Atari Games	Atari 2600 Crazy Climber	GDI-I3	Score	201000	# 8
Atari Games	Atari 2600 Defender	GDI-I3	Score	893110	# 3
Atari Games	Atari 2600 Demon Attack	GDI-I3	Score	675530	# 2
Atari Games	Atari 2600 Double Dunk	GDI-H3	Score	24	# 1
Atari Games	Atari 2600 Enduro	GDI-I3	Score	14330	# 1
Atari Games	Atari 2600 Fishing Derby	GDI-I3	Score	59	# 7
Atari Games	Atari 2600 Freeway	GDI-I3	Score	34	# 1
Atari Games	Atari 2600 Frostbite	GDI-I3	Score	10485	# 9
Atari Games	Atari 2600 Gravitar	GDI-I3	Score	5905	# 8
Atari Games	Atari 2600 HERO	GDI-I3	Score	38330	# 5
Atari Games	Atari 2600 Ice Hockey	GDI-I3	Score	44.94	# 5
Atari Games	Atari 2600 James Bond	GDI-I3	Score	594500	# 2
Atari Games	Atari 2600 Kangaroo	GDI-I3	Score	14500	# 10
Atari Games	Atari 2600 Krull	GDI-I3	Score	97575	# 5
Atari Games	Atari 2600 Montezuma's Revenge	GDI-I3	Score	3000	# 11
Atari Games	Atari 2600 Ms. Pacman	GDI-I3	Score	11536	# 7
Atari Games	Atari 2600 Name This Game	GDI-I3	Score	34434	# 6
Atari Games	Atari 2600 Phoenix	GDI-I3	Score	894460	# 4
Atari Games	Atari 2600 Pitfall!	GDI-I3	Score	0	# 4
Atari Games	Atari 2600 Private Eye	GDI-I3	Score	15100	# 5
Atari Games	Atari 2600 Q*Bert	GDI-I3	Score	27800	# 13
Atari Games	Atari 2600 Road Runner	GDI-I3	Score	878600	# 2
Atari Games	Atari 2600 Robotank	GDI-I3	Score	108.2	# 4
Atari Games	Atari 2600 Seaquest	GDI-I3	Score	943910	# 7
Atari Games	Atari 2600 Skiing	GDI-I3	Score	-6774	# 3
Atari Games	Atari 2600 Solaris	GDI-I3	Score	11074	# 6
Atari Games	Atari 2600 Space Invaders	GDI-I3	Score	140460	# 3
Atari Games	Atari 2600 Star Gunner	GDI-I3	Score	465750	# 5
Atari Games	Atari 2600 Surround	GDI-I3	Score	-7.8	# 14
Atari Games	Atari 2600 Tennis	GDI-I3	Score	24	# 1
Atari Games	Atari 2600 Time Pilot	GDI-I3	Score	216770	# 6
Atari Games	Atari 2600 Tutankham	GDI-I3	Score	423.9	# 3
Atari Games	Atari 2600 Up and Down	GDI-I3	Score	986440	# 1
Atari Games	Atari-57	GDI-H3(200M frames)	Human World Record Breakthrough	22	# 2
Atari Games	Atari-57	GDI-H3(200M frames)	Mean Human Normalized Score	9620.98%	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-boxing)](https://paperswithcode.com/sota/atari-games-on-atari-2600-boxing?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-chopper-command)](https://paperswithcode.com/sota/atari-games-on-atari-2600-chopper-command?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-double-dunk)](https://paperswithcode.com/sota/atari-games-on-atari-2600-double-dunk?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-enduro)](https://paperswithcode.com/sota/atari-games-on-atari-2600-enduro?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-freeway)](https://paperswithcode.com/sota/atari-games-on-atari-2600-freeway?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-tennis)](https://paperswithcode.com/sota/atari-games-on-atari-2600-tennis?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-up-and-down)](https://paperswithcode.com/sota/atari-games-on-atari-2600-up-and-down?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-demon-attack)](https://paperswithcode.com/sota/atari-games-on-atari-2600-demon-attack?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-james-bond)](https://paperswithcode.com/sota/atari-games-on-atari-2600-james-bond?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-road-runner)](https://paperswithcode.com/sota/atari-games-on-atari-2600-road-runner?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-57)](https://paperswithcode.com/sota/atari-games-on-atari-57?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-defender)](https://paperswithcode.com/sota/atari-games-on-atari-2600-defender?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-skiing)](https://paperswithcode.com/sota/atari-games-on-atari-2600-skiing?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-space-invaders)](https://paperswithcode.com/sota/atari-games-on-atari-2600-space-invaders?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-tutankham)](https://paperswithcode.com/sota/atari-games-on-atari-2600-tutankham?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-phoenix)](https://paperswithcode.com/sota/atari-games-on-atari-2600-phoenix?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-pitfall)](https://paperswithcode.com/sota/atari-games-on-atari-2600-pitfall?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-robotank)](https://paperswithcode.com/sota/atari-games-on-atari-2600-robotank?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-hero)](https://paperswithcode.com/sota/atari-games-on-atari-2600-hero?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-ice-hockey)](https://paperswithcode.com/sota/atari-games-on-atari-2600-ice-hockey?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-krull)](https://paperswithcode.com/sota/atari-games-on-atari-2600-krull?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-private-eye)](https://paperswithcode.com/sota/atari-games-on-atari-2600-private-eye?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-star-gunner)](https://paperswithcode.com/sota/atari-games-on-atari-2600-star-gunner?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-beam-rider)](https://paperswithcode.com/sota/atari-games-on-atari-2600-beam-rider?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-bowling)](https://paperswithcode.com/sota/atari-games-on-atari-2600-bowling?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-name-this-game)](https://paperswithcode.com/sota/atari-games-on-atari-2600-name-this-game?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-solaris)](https://paperswithcode.com/sota/atari-games-on-atari-2600-solaris?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-time-pilot)](https://paperswithcode.com/sota/atari-games-on-atari-2600-time-pilot?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-fishing-derby)](https://paperswithcode.com/sota/atari-games-on-atari-2600-fishing-derby?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-ms-pacman)](https://paperswithcode.com/sota/atari-games-on-atari-2600-ms-pacman?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-seaquest)](https://paperswithcode.com/sota/atari-games-on-atari-2600-seaquest?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-centipede)](https://paperswithcode.com/sota/atari-games-on-atari-2600-centipede?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-crazy-climber)](https://paperswithcode.com/sota/atari-games-on-atari-2600-crazy-climber?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-gravitar)](https://paperswithcode.com/sota/atari-games-on-atari-2600-gravitar?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-berzerk)](https://paperswithcode.com/sota/atari-games-on-atari-2600-berzerk?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-frostbite)](https://paperswithcode.com/sota/atari-games-on-atari-2600-frostbite?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-kangaroo)](https://paperswithcode.com/sota/atari-games-on-atari-2600-kangaroo?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-montezumas-revenge)](https://paperswithcode.com/sota/atari-games-on-atari-2600-montezumas-revenge?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-qbert)](https://paperswithcode.com/sota/atari-games-on-atari-2600-qbert?p=gdi-rethinking-what-makes-reinforcement)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/gdi-rethinking-what-makes-reinforcement/atari-games-on-atari-2600-surround)](https://paperswithcode.com/sota/atari-games-on-atari-2600-surround?p=gdi-rethinking-what-makes-reinforcement)`

GDI: Rethinking What Makes Reinforcement Learning Different From Supervised Learning

11 Jun 2021 · Jiajun Fan, Changnan Xiao, Yue Huang ·

Deep Q Network (DQN) firstly kicked the door of deep reinforcement learning (DRL) via combining deep learning (DL) with reinforcement learning (RL), which has noticed that the distribution of the acquired data would change during the training process. DQN found this property might cause instability for training, so it proposed effective methods to handle the downside of the property. Instead of focusing on the unfavourable aspects, we find it critical for RL to ease the gap between the estimated data distribution and the ground truth data distribution while supervised learning (SL) fails to do so. From this new perspective, we extend the basic paradigm of RL called the Generalized Policy Iteration (GPI) into a more generalized version, which is called the Generalized Data Distribution Iteration (GDI). We see massive RL algorithms and techniques can be unified into the GDI paradigm, which can be considered as one of the special cases of GDI. We provide theoretical proof of why GDI is better than GPI and how it works. Several practical algorithms based on GDI have been proposed to verify the effectiveness and extensiveness of it. Empirical experiments prove our state-of-the-art (SOTA) performance on Arcade Learning Environment (ALE), wherein our algorithm has achieved 9620.98% mean human normalized score (HNS), 1146.39% median HNS and 22 human world record breakthroughs (HWRB) using only 200M training frames. Our work aims to lead the RL research to step into the journey of conquering the human world records and seek real superhuman agents on both performance and efficiency.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Atari Games

reinforcement-learning

Reinforcement Learning (RL)

Datasets

Arcade Learning Environment

DQN Replay Dataset

Results from the Paper

Edit

Ranked #1 on Atari Games on Atari 2600 Freeway

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Atari Games	Atari 2600 Beam Rider	GDI-I3	Score	162100	# 6	Compare
Atari Games	Atari 2600 Berzerk	GDI-I3	Score	7607	# 9	Compare
Atari Games	Atari 2600 Bowling	GDI-I3	Score	201.9	# 6	Compare
Atari Games	Atari 2600 Boxing	GDI-H3	Score	100	# 1	Compare
Atari Games	Atari 2600 Centipede	GDI-I3	Score	155830	# 8	Compare
Atari Games	Atari 2600 Chopper Command	GDI-H3	Score	999999	# 1	Compare
Atari Games	Atari 2600 Crazy Climber	GDI-I3	Score	201000	# 8	Compare
Atari Games	Atari 2600 Defender	GDI-I3	Score	893110	# 3	Compare
Atari Games	Atari 2600 Demon Attack	GDI-I3	Score	675530	# 2	Compare
Atari Games	Atari 2600 Double Dunk	GDI-H3	Score	24	# 1	Compare
Atari Games	Atari 2600 Enduro	GDI-I3	Score	14330	# 1	Compare
Atari Games	Atari 2600 Fishing Derby	GDI-I3	Score	59	# 7	Compare
Atari Games	Atari 2600 Freeway	GDI-I3	Score	34	# 1	Compare
Atari Games	Atari 2600 Frostbite	GDI-I3	Score	10485	# 9	Compare
Atari Games	Atari 2600 Gravitar	GDI-I3	Score	5905	# 8	Compare
Atari Games	Atari 2600 HERO	GDI-I3	Score	38330	# 5	Compare
Atari Games	Atari 2600 Ice Hockey	GDI-I3	Score	44.94	# 5	Compare
Atari Games	Atari 2600 James Bond	GDI-I3	Score	594500	# 2	Compare
Atari Games	Atari 2600 Kangaroo	GDI-I3	Score	14500	# 10	Compare
Atari Games	Atari 2600 Krull	GDI-I3	Score	97575	# 5	Compare
Atari Games	Atari 2600 Montezuma's Revenge	GDI-I3	Score	3000	# 11	Compare
Atari Games	Atari 2600 Ms. Pacman	GDI-I3	Score	11536	# 7	Compare
Atari Games	Atari 2600 Name This Game	GDI-I3	Score	34434	# 6	Compare
Atari Games	Atari 2600 Phoenix	GDI-I3	Score	894460	# 4	Compare
Atari Games	Atari 2600 Pitfall!	GDI-I3	Score	0	# 4	Compare
Atari Games	Atari 2600 Private Eye	GDI-I3	Score	15100	# 5	Compare
Atari Games	Atari 2600 Q*Bert	GDI-I3	Score	27800	# 13	Compare
Atari Games	Atari 2600 Road Runner	GDI-I3	Score	878600	# 2	Compare
Atari Games	Atari 2600 Robotank	GDI-I3	Score	108.2	# 4	Compare
Atari Games	Atari 2600 Seaquest	GDI-I3	Score	943910	# 7	Compare
Atari Games	Atari 2600 Skiing	GDI-I3	Score	-6774	# 3	Compare
Atari Games	Atari 2600 Solaris	GDI-I3	Score	11074	# 6	Compare
Atari Games	Atari 2600 Space Invaders	GDI-I3	Score	140460	# 3	Compare
Atari Games	Atari 2600 Star Gunner	GDI-I3	Score	465750	# 5	Compare
Atari Games	Atari 2600 Surround	GDI-I3	Score	-7.8	# 14	Compare
Atari Games	Atari 2600 Tennis	GDI-I3	Score	24	# 1	Compare
Atari Games	Atari 2600 Time Pilot	GDI-I3	Score	216770	# 6	Compare
Atari Games	Atari 2600 Tutankham	GDI-I3	Score	423.9	# 3	Compare
Atari Games	Atari 2600 Up and Down	GDI-I3	Score	986440	# 1	Compare
Atari Games	Atari-57	GDI-H3(200M frames)	Human World Record Breakthrough	22	# 2	Compare
Atari Games	Atari-57	GDI-H3(200M frames)	Mean Human Normalized Score	9620.98%	# 2	Compare

Methods

Add Remove

Convolution • Dense Connections • DQN • Q-Learning

Edit Social Preview

GDI: Rethinking What Makes Reinforcement Learning Different From Supervised Learning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove