TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Atari Games	Atari 2600 Breakout	DT	Score	267.5	# 44
Atari Games	Atari 2600 Pong	DT	Score	17.1	# 43
Atari Games	Atari 2600 Q*Bert	DT	Score	25.1	# 56
Atari Games	Atari 2600 Seaquest	DT	Score	2.4	# 56
Offline RL	D4RL	Decision Transformer (DT)	Average Reward	73.5	# 3
D4RL	D4RL	Decision Transformer (DT)	Average Reward	72.2	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/decision-transformer-reinforcement-learning/offline-rl-on-d4rl)](https://paperswithcode.com/sota/offline-rl-on-d4rl?p=decision-transformer-reinforcement-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/decision-transformer-reinforcement-learning/d4rl-on-d4rl)](https://paperswithcode.com/sota/d4rl-on-d4rl?p=decision-transformer-reinforcement-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/decision-transformer-reinforcement-learning/atari-games-on-atari-2600-pong)](https://paperswithcode.com/sota/atari-games-on-atari-2600-pong?p=decision-transformer-reinforcement-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/decision-transformer-reinforcement-learning/atari-games-on-atari-2600-breakout)](https://paperswithcode.com/sota/atari-games-on-atari-2600-breakout?p=decision-transformer-reinforcement-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/decision-transformer-reinforcement-learning/atari-games-on-atari-2600-qbert)](https://paperswithcode.com/sota/atari-games-on-atari-2600-qbert?p=decision-transformer-reinforcement-learning)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/decision-transformer-reinforcement-learning/atari-games-on-atari-2600-seaquest)](https://paperswithcode.com/sota/atari-games-on-atari-2600-seaquest?p=decision-transformer-reinforcement-learning)`

Decision Transformer: Reinforcement Learning via Sequence Modeling

NeurIPS 2021 · Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch ·

We introduce a framework that abstracts Reinforcement Learning (RL) as a sequence modeling problem. This allows us to draw upon the simplicity and scalability of the Transformer architecture, and associated advances in language modeling such as GPT-x and BERT. In particular, we present Decision Transformer, an architecture that casts the problem of RL as conditional sequence modeling. Unlike prior approaches to RL that fit value functions or compute policy gradients, Decision Transformer simply outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired return (reward), past states, and actions, our Decision Transformer model can generate future actions that achieve the desired return. Despite its simplicity, Decision Transformer matches or exceeds the performance of state-of-the-art model-free offline RL baselines on Atari, OpenAI Gym, and Key-to-Door tasks.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

kzl/decision-transformer official

2,149

opendilab/DI-engine

↳ Quickstart in

Colab

2,539

pytorch/rl

1,769

takuseno/d3rlpy

↳ Quickstart in

Colab

1,197

facebookresearch/salina

426

See all 16 implementations

Tasks

Add Remove

Atari Games

D4RL

Language Modelling

Offline RL

OpenAI Gym

reinforcement-learning

Reinforcement Learning (RL)

Datasets

OpenAI Gym

D4RL

Arcade Learning Environment

DQN Replay Dataset

Results from the Paper

Edit

Ranked #3 on Offline RL on D4RL

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Atari Games	Atari 2600 Breakout	DT	Score	267.5	# 44	Compare
Atari Games	Atari 2600 Pong	DT	Score	17.1	# 43	Compare
Atari Games	Atari 2600 Q*Bert	DT	Score	25.1	# 56	Compare
Atari Games	Atari 2600 Seaquest	DT	Score	2.4	# 56	Compare
Offline RL	D4RL	Decision Transformer (DT)	Average Reward	73.5	# 3	Compare
D4RL	D4RL	Decision Transformer (DT)	Average Reward	72.2	# 5	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

Decision Transformer: Reinforcement Learning via Sequence Modeling

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove