TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Charades	VidTr-L	MAP	43.5	# 22
Action Classification	Charades	En-VidTr-L	MAP	47.3	# 15
Action Recognition	HMDB-51	VidTr-L	Average accuracy of 3 splits	74.4	# 41
Action Classification	Kinetics-400	En-VidTr-S	Acc@1	79.4	# 103
Action Classification	Kinetics-400	En-VidTr-S	Acc@5	94	# 80
Action Classification	Kinetics-400	En-VidTr-M	Acc@1	79.7	# 101
Action Classification	Kinetics-400	En-VidTr-M	Acc@5	94.2	# 78
Action Classification	Kinetics-400	En-VidTr-L	Acc@1	80.5	# 89
Action Classification	Kinetics-400	En-VidTr-L	Acc@5	94.6	# 61
Action Classification	Kinetics-700	VidTr-S	Top-1 Accuracy	67.3	# 27
Action Classification	Kinetics-700	VidTr-S	Top-5 Accuracy	87.7	# 14
Action Classification	Kinetics-700	VidTr-M	Top-1 Accuracy	69.5	# 25
Action Classification	Kinetics-700	VidTr-M	Top-5 Accuracy	88.3	# 13
Action Classification	Kinetics-700	VidTr-L	Top-1 Accuracy	70.2	# 24
Action Classification	Kinetics-700	VidTr-L	Top-5 Accuracy	89	# 12
Action Classification	Kinetics-700	En-VidTr-L	Top-1 Accuracy	70.8	# 22
Action Classification	Kinetics-700	En-VidTr-L	Top-5 Accuracy	89.4	# 11
Action Recognition	Something-Something V2	VidTr-L	Top-1 Accuracy	60.2	# 111
Action Recognition	UCF101	VidTr-L	3-fold Accuracy	96.7	# 30

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vidtr-video-transformer-without-convolutions/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=vidtr-video-transformer-without-convolutions)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vidtr-video-transformer-without-convolutions/action-classification-on-kinetics-700)](https://paperswithcode.com/sota/action-classification-on-kinetics-700?p=vidtr-video-transformer-without-convolutions)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vidtr-video-transformer-without-convolutions/action-recognition-in-videos-on-ucf101)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ucf101?p=vidtr-video-transformer-without-convolutions)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vidtr-video-transformer-without-convolutions/action-recognition-in-videos-on-hmdb-51)](https://paperswithcode.com/sota/action-recognition-in-videos-on-hmdb-51?p=vidtr-video-transformer-without-convolutions)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vidtr-video-transformer-without-convolutions/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=vidtr-video-transformer-without-convolutions)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vidtr-video-transformer-without-convolutions/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=vidtr-video-transformer-without-convolutions)`

VidTr: Video Transformer Without Convolutions

ICCV 2021 · Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe ·

We introduce Video Transformer (VidTr) with separable-attention for video classification. Comparing with commonly used 3D networks, VidTr is able to aggregate spatio-temporal information via stacked attentions and provide better performance with higher efficiency. We first introduce the vanilla video transformer and show that transformer module is able to perform spatio-temporal modeling from raw pixels, but with heavy memory usage. We then present VidTr which reduces the memory cost by 3.3$\times$ while keeping the same performance. To further optimize the model, we propose the standard deviation based topK pooling for attention ($pool_{topK\_std}$), which reduces the computation by dropping non-informative features along temporal dimension. VidTr achieves state-of-the-art performance on five commonly used datasets with lower computational requirement, showing both the efficiency and effectiveness of our design. Finally, error analysis and visualization show that VidTr is especially good at predicting actions that require long-term temporal reasoning.

PDF Abstract ICCV 2021 PDF ICCV 2021 Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Action Classification

Action Recognition

Video Classification

Datasets

UCF101

Kinetics

HMDB51

Kinetics 400

Charades

Something-Something V2

Kinetics-700

Results from the Paper

Edit

Ranked #15 on Action Classification on Charades

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Charades	VidTr-L	MAP	43.5	# 22	Compare
Action Classification	Charades	En-VidTr-L	MAP	47.3	# 15	Compare
Action Recognition	HMDB-51	VidTr-L	Average accuracy of 3 splits	74.4	# 41	Compare
Action Classification	Kinetics-400	En-VidTr-S	Acc@1	79.4	# 103	Compare
Action Classification	Kinetics-400	En-VidTr-S	Acc@5	94	# 80	Compare
Action Classification	Kinetics-400	En-VidTr-M	Acc@1	79.7	# 101	Compare
Action Classification	Kinetics-400	En-VidTr-M	Acc@5	94.2	# 78	Compare
Action Classification	Kinetics-400	En-VidTr-L	Acc@1	80.5	# 89	Compare
Action Classification	Kinetics-400	En-VidTr-L	Acc@5	94.6	# 61	Compare
Action Classification	Kinetics-700	VidTr-S	Top-1 Accuracy	67.3	# 27	Compare
Action Classification	Kinetics-700	VidTr-S	Top-5 Accuracy	87.7	# 14	Compare
Action Classification	Kinetics-700	VidTr-M	Top-1 Accuracy	69.5	# 25	Compare
Action Classification	Kinetics-700	VidTr-M	Top-5 Accuracy	88.3	# 13	Compare
Action Classification	Kinetics-700	VidTr-L	Top-1 Accuracy	70.2	# 24	Compare
Action Classification	Kinetics-700	VidTr-L	Top-5 Accuracy	89	# 12	Compare
Action Classification	Kinetics-700	En-VidTr-L	Top-1 Accuracy	70.8	# 22	Compare
Action Classification	Kinetics-700	En-VidTr-L	Top-5 Accuracy	89.4	# 11	Compare
Action Recognition	Something-Something V2	VidTr-L	Top-1 Accuracy	60.2	# 111	Compare
Action Recognition	UCF101	VidTr-L	3-fold Accuracy	96.7	# 30	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

VidTr: Video Transformer Without Convolutions

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove