TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
3D Human Pose Estimation	3DPW	MotionBERT (Finetune)	PA-MPJPE	47.2	# 46
3D Human Pose Estimation	3DPW	MotionBERT (Finetune)	MPJPE	76.9	# 49
3D Human Pose Estimation	3DPW	MotionBERT (Finetune)	MPVPE	88.1	# 37
3D Human Pose Estimation	3DPW	MotionBERT-HybrIK	PA-MPJPE	40.6	# 14
3D Human Pose Estimation	3DPW	MotionBERT-HybrIK	MPJPE	68.8	# 19
3D Human Pose Estimation	3DPW	MotionBERT-HybrIK	MPVPE	79.4	# 14
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Scratch)	Average MPJPE (mm)	39.2	# 5
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Scratch)	Use Video Sequence	Yes	# 1
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Scratch)	Frames Needed	243	# 33
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Scratch)	Need Ground Truth 2D Pose	No	# 1
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Scratch)	2D detector	SH	# 1
3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Average MPJPE (mm)	16.9	# 2
3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Using 2D ground-truth joints	Yes	# 2
3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Multi-View or Monocular	Monocular	# 1
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Average MPJPE (mm)	37.5	# 2
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Use Video Sequence	Yes	# 1
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Frames Needed	243	# 33
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Need Ground Truth 2D Pose	No	# 1
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	2D detector	SH	# 1
Skeleton Based Action Recognition	NTU RGB+D	MotionBert (finetune)	Accuracy (CV)	97.2	# 9
Skeleton Based Action Recognition	NTU RGB+D	MotionBert (finetune)	Accuracy (CS)	93.0	# 11
One-Shot 3D Action Recognition	NTU RGB+D 120	MotionBERT (Finetune)	Accuracy	67.4%	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/motionbert-unified-pretraining-for-human/one-shot-3d-action-recognition-on-ntu-rgbd)](https://paperswithcode.com/sota/one-shot-3d-action-recognition-on-ntu-rgbd?p=motionbert-unified-pretraining-for-human)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/motionbert-unified-pretraining-for-human/3d-human-pose-estimation-on-human36m)](https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m?p=motionbert-unified-pretraining-for-human)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/motionbert-unified-pretraining-for-human/monocular-3d-human-pose-estimation-on-human3)](https://paperswithcode.com/sota/monocular-3d-human-pose-estimation-on-human3?p=motionbert-unified-pretraining-for-human)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/motionbert-unified-pretraining-for-human/skeleton-based-action-recognition-on-ntu-rgbd)](https://paperswithcode.com/sota/skeleton-based-action-recognition-on-ntu-rgbd?p=motionbert-unified-pretraining-for-human)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/motionbert-unified-pretraining-for-human/3d-human-pose-estimation-on-3dpw)](https://paperswithcode.com/sota/3d-human-pose-estimation-on-3dpw?p=motionbert-unified-pretraining-for-human)`

MotionBERT: A Unified Perspective on Learning Human Motion Representations

ICCV 2023 · Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang ·

We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations. Code and models are available at https://motionbert.github.io/

PDF Abstract ICCV 2023 PDF ICCV 2023 Abstract

Code

Add Remove Mark official

Walter0807/MotionBERT official

836

Tasks

Add Remove

3D Human Pose Estimation

3D Pose Estimation

Action Recognition

Monocular 3D Human Pose Estimation

One-Shot 3D Action Recognition

Pose Estimation

Skeleton Based Action Recognition

Datasets

MS COCO

Human3.6M

NTU RGB+D

3DPW

AMASS

NTU RGB+D 120

Results from the Paper

Edit

Ranked #1 on Monocular 3D Human Pose Estimation on Human3.6M (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
3D Human Pose Estimation	3DPW	MotionBERT (Finetune)	PA-MPJPE	47.2	# 46	Compare
			MPJPE	76.9	# 49	Compare
			MPVPE	88.1	# 37	Compare
3D Human Pose Estimation	3DPW	MotionBERT-HybrIK	PA-MPJPE	40.6	# 14	Compare
			MPJPE	68.8	# 19	Compare
			MPVPE	79.4	# 14	Compare
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Scratch)	Average MPJPE (mm)	39.2	# 5	Compare
			Use Video Sequence	Yes	# 1	Compare
			Frames Needed	243	# 33	Compare
			Need Ground Truth 2D Pose	No	# 1	Compare
			2D detector	SH	# 1	Compare
3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Average MPJPE (mm)	16.9	# 2	Compare
			Using 2D ground-truth joints	Yes	# 2	Compare
			Multi-View or Monocular	Monocular	# 1	Compare
Monocular 3D Human Pose Estimation	Human3.6M	MotionBERT (Finetune)	Average MPJPE (mm)	37.5	# 2	Compare
			Use Video Sequence	Yes	# 1	Compare
			Frames Needed	243	# 33	Compare
			Need Ground Truth 2D Pose	No	# 1	Compare
			2D detector	SH	# 1	Compare
Skeleton Based Action Recognition	NTU RGB+D	MotionBert (finetune)	Accuracy (CV)	97.2	# 9	Compare
Skeleton Based Action Recognition	NTU RGB+D	MotionBert (finetune)	Accuracy (CS)	93.0	# 11	Compare
One-Shot 3D Action Recognition	NTU RGB+D 120	MotionBERT (Finetune)	Accuracy	67.4%	# 1	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

MotionBERT: A Unified Perspective on Learning Human Motion Representations

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove