TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	NTU RGB+D	MMNet (RGB + Pose)	Accuracy (CS)	96.0	# 4
Action Recognition	NTU RGB+D	MMNet (RGB + Pose)	Accuracy (CV)	98.8	# 4
Action Recognition	NTU RGB+D 120	MMNet (RGB + Pose)	Accuracy (Cross-Subject)	92.9	# 3
Action Recognition	NTU RGB+D 120	MMNet (RGB + Pose)	Accuracy (Cross-Setup)	94.4	# 3
Skeleton Based Action Recognition	N-UCLA	MMNet (RGB + Pose)	Accuracy	93.7	# 12
Action Recognition In Videos	PKU-MMD	MMNet	X-Sub	97.4	# 1
Action Recognition In Videos	PKU-MMD	MMNet	X-View	98.6	# 1
Action Classification	Toyota Smarthome dataset	MMNet	CS	70.1	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mmnet-a-model-based-multimodal-network-for/action-recognition-in-videos-on-pku-mmd)](https://paperswithcode.com/sota/action-recognition-in-videos-on-pku-mmd?p=mmnet-a-model-based-multimodal-network-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mmnet-a-model-based-multimodal-network-for/action-classification-on-toyota-smarthome)](https://paperswithcode.com/sota/action-classification-on-toyota-smarthome?p=mmnet-a-model-based-multimodal-network-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mmnet-a-model-based-multimodal-network-for/action-recognition-in-videos-on-ntu-rgbd-120)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ntu-rgbd-120?p=mmnet-a-model-based-multimodal-network-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mmnet-a-model-based-multimodal-network-for/action-recognition-in-videos-on-ntu-rgbd)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ntu-rgbd?p=mmnet-a-model-based-multimodal-network-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mmnet-a-model-based-multimodal-network-for/skeleton-based-action-recognition-on-n-ucla)](https://paperswithcode.com/sota/skeleton-based-action-recognition-on-n-ucla?p=mmnet-a-model-based-multimodal-network-for)`

MMNet: A Model-Based Multimodal Network for Human Action Recognition in RGB-D Videos

IEEE Transactions on Pattern Analysis and Machine Intelligence 2022 · Bruce X.B. Yu, Yan Liu, Xiang Zhang, Sheng-hua Zhong, Keith C.C. Chan ·

Human action recognition (HAR) in RGB-D videos has been widely investigated since the release of affordable depth sensors. Currently, unimodal approaches (e.g., skeleton-based and RGB video-based) have realized substantial improvements with increasingly larger datasets. However, multimodal methods specifically with model-level fusion have seldom been investigated. In this paper, we propose a model-based multimodal network (MMNet) that fuses skeleton and RGB modalities via a model-based approach. The objective of our method is to improve ensemble recognition accuracy by effectively applying mutually complementary information from different data modalities. For the model-based fusion scheme, we use a spatiotemporal graph convolution network for the skeleton modality to learn attention weights that will be transferred to the network of the RGB modality. Extensive experiments are conducted on five benchmark datasets: NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA Multiview, and Toyota Smarthome. Upon aggregating the results of multiple modalities, our method is found to outperform state-of-the-art approaches on six evaluation protocols of the five datasets; thus, the proposed MMNet can effectively capture mutually complementary features in different RGB-D video modalities and provide more discriminative features for HAR. We also tested our MMNet on an RGB video dataset Kinetics 400 that contains more outdoor actions, which shows consistent results with those of RGB-D video datasets.

PDF Abstract

Code

Add Remove Mark official

bruceyo/MMNet

Tasks

Add Remove

Action Classification

Action Recognition

Action Recognition In Videos

Skeleton Based Action Recognition

Temporal Action Localization

Datasets

NTU RGB+D

NTU RGB+D 120

PKU-MMD

Toyota Smarthome Dataset N-UCLA

Toyota Smarthome dataset

Results from the Paper

Add Remove

Ranked #1 on Action Recognition In Videos on PKU-MMD (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	NTU RGB+D	MMNet (RGB + Pose)	Accuracy (CS)	96.0	# 4	Compare
Action Recognition	NTU RGB+D	MMNet (RGB + Pose)	Accuracy (CV)	98.8	# 4	Compare
Action Recognition	NTU RGB+D 120	MMNet (RGB + Pose)	Accuracy (Cross-Subject)	92.9	# 3	Compare
Action Recognition	NTU RGB+D 120	MMNet (RGB + Pose)	Accuracy (Cross-Setup)	94.4	# 3	Compare
Skeleton Based Action Recognition	N-UCLA	MMNet (RGB + Pose)	Accuracy	93.7	# 12	Compare
Action Recognition In Videos	PKU-MMD	MMNet	X-Sub	97.4	# 1	Compare
Action Recognition In Videos	PKU-MMD	MMNet	X-View	98.6	# 1	Compare
Action Classification	Toyota Smarthome dataset	MMNet	CS	70.1	# 2	Compare

Methods

Add Remove

EfficientNet

Edit Social Preview

MMNet: A Model-Based Multimodal Network for Human Action Recognition in RGB-D Videos

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove