TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Kinetics-400	CoVeR (JFT-300M)	Acc@1	86.3	# 43
Action Classification	Kinetics-400	CoVeR (JFT-300M)	Acc@5	97.2	# 29
Action Classification	Kinetics-400	CoVeR (JFT-3B)	Acc@1	87.2	# 31
Action Classification	Kinetics-400	CoVeR (JFT-3B)	Acc@5	97.5	# 23
Action Classification	Kinetics-600	CoVeR (JFT-3B)	Top-1 Accuracy	87.9	# 23
Action Classification	Kinetics-600	CoVeR (JFT-3B)	Top-5 Accuracy	97.8	# 12
Action Classification	Kinetics-600	CoVeR (JFT-300M)	Top-1 Accuracy	86.8	# 26
Action Classification	Kinetics-600	CoVeR (JFT-300M)	Top-5 Accuracy	97.3	# 14
Action Classification	Kinetics-700	CoVeR (JFT-300M)	Top-1 Accuracy	78.5	# 18
Action Classification	Kinetics-700	CoVeR (JFT-300M)	Top-5 Accuracy	94.2	# 9
Action Classification	Kinetics-700	CoVeR (JFT-3B)	Top-1 Accuracy	79.8	# 15
Action Classification	Kinetics-700	CoVeR (JFT-3B)	Top-5 Accuracy	94.9	# 6
Action Classification	MiT	CoVeR(JFT-300M)	Top 1 Accuracy	45.0	# 9
Action Classification	MiT	CoVeR(JFT-300M)	Top 5 Accuracy	73.9	# 5
Action Classification	MiT	CoVeR(JFT-3B)	Top 1 Accuracy	46.1	# 8
Action Classification	MiT	CoVeR(JFT-3B)	Top 5 Accuracy	75.4	# 4
Action Recognition	Something-Something V2	CoVeR(JFT-3B)	Top-1 Accuracy	70.9	# 33
Action Recognition	Something-Something V2	CoVeR(JFT-3B)	Top-5 Accuracy	92.5	# 26
Action Recognition	Something-Something V2	CoVeR(JFT-300M)	Top-1 Accuracy	69.8	# 39
Action Recognition	Something-Something V2	CoVeR(JFT-300M)	Top-5 Accuracy	91.9	# 31

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/co-training-transformer-with-videos-and/action-classification-on-moments-in-time)](https://paperswithcode.com/sota/action-classification-on-moments-in-time?p=co-training-transformer-with-videos-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/co-training-transformer-with-videos-and/action-classification-on-kinetics-700)](https://paperswithcode.com/sota/action-classification-on-kinetics-700?p=co-training-transformer-with-videos-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/co-training-transformer-with-videos-and/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=co-training-transformer-with-videos-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/co-training-transformer-with-videos-and/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=co-training-transformer-with-videos-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/co-training-transformer-with-videos-and/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=co-training-transformer-with-videos-and)`

Co-training Transformer with Videos and Images Improves Action Recognition

14 Dec 2021 · BoWen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang, Fei Sha ·

In learning action recognition, models are typically pre-trained on object recognition with images, such as ImageNet, and later fine-tuned on target action recognition with videos. This approach has achieved good empirical performance especially with recent transformer-based video architectures. While recently many works aim to design more advanced transformer architectures for action recognition, less effort has been made on how to train video transformers. In this work, we explore several training paradigms and present two findings. First, video transformers benefit from joint training on diverse video datasets and label spaces (e.g., Kinetics is appearance-focused while SomethingSomething is motion-focused). Second, by further co-training with images (as single-frame videos), the video transformers learn even better video representations. We term this approach as Co-training Videos and Images for Action Recognition (CoVeR). In particular, when pretrained on ImageNet-21K based on the TimeSFormer architecture, CoVeR improves Kinetics-400 Top-1 Accuracy by 2.4%, Kinetics-600 by 2.3%, and SomethingSomething-v2 by 2.3%. When pretrained on larger-scale image datasets following previous state-of-the-art, CoVeR achieves best results on Kinetics-400 (87.2%), Kinetics-600 (87.9%), Kinetics-700 (79.8%), SomethingSomething-v2 (70.9%), and Moments-in-Time (46.1%), with a simple spatio-temporal video transformer.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Action Classification

Action Recognition

Action Recognition In Videos

Object Recognition

Video Classification

Datasets

ImageNet

Kinetics

Kinetics 400

Something-Something V2

Kinetics-600

MiT

Kinetics-700 JFT-3B

Results from the Paper

Edit

Ranked #8 on Action Classification on MiT (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Kinetics-400	CoVeR (JFT-300M)	Acc@1	86.3	# 43	Compare
Action Classification	Kinetics-400	CoVeR (JFT-300M)	Acc@5	97.2	# 29	Compare
Action Classification	Kinetics-400	CoVeR (JFT-3B)	Acc@1	87.2	# 31	Compare
Action Classification	Kinetics-400	CoVeR (JFT-3B)	Acc@5	97.5	# 23	Compare
Action Classification	Kinetics-600	CoVeR (JFT-3B)	Top-1 Accuracy	87.9	# 23	Compare
Action Classification	Kinetics-600	CoVeR (JFT-3B)	Top-5 Accuracy	97.8	# 12	Compare
Action Classification	Kinetics-600	CoVeR (JFT-300M)	Top-1 Accuracy	86.8	# 26	Compare
Action Classification	Kinetics-600	CoVeR (JFT-300M)	Top-5 Accuracy	97.3	# 14	Compare
Action Classification	Kinetics-700	CoVeR (JFT-300M)	Top-1 Accuracy	78.5	# 18	Compare
Action Classification	Kinetics-700	CoVeR (JFT-300M)	Top-5 Accuracy	94.2	# 9	Compare
Action Classification	Kinetics-700	CoVeR (JFT-3B)	Top-1 Accuracy	79.8	# 15	Compare
Action Classification	Kinetics-700	CoVeR (JFT-3B)	Top-5 Accuracy	94.9	# 6	Compare
Action Classification	MiT	CoVeR(JFT-300M)	Top 1 Accuracy	45.0	# 9	Compare
Action Classification	MiT	CoVeR(JFT-300M)	Top 5 Accuracy	73.9	# 5	Compare
Action Classification	MiT	CoVeR(JFT-3B)	Top 1 Accuracy	46.1	# 8	Compare
Action Classification	MiT	CoVeR(JFT-3B)	Top 5 Accuracy	75.4	# 4	Compare
Action Recognition	Something-Something V2	CoVeR(JFT-3B)	Top-1 Accuracy	70.9	# 33	Compare
Action Recognition	Something-Something V2	CoVeR(JFT-3B)	Top-5 Accuracy	92.5	# 26	Compare
Action Recognition	Something-Something V2	CoVeR(JFT-300M)	Top-1 Accuracy	69.8	# 39	Compare
Action Recognition	Something-Something V2	CoVeR(JFT-300M)	Top-5 Accuracy	91.9	# 31	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Co-training Transformer with Videos and Images Improves Action Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove