TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Charades	TubeViT-L	MAP	66.2	# 2
Action Classification	Kinetics-400	TubeVit-B (ImageNet-1k)	Acc@1	88.6	# 18
Action Classification	Kinetics-400	TubeVit-B (ImageNet-1k)	Acc@5	97.6	# 18
Action Classification	Kinetics-400	TubeVit-B (ImageNet-1k)	FLOPs (G) x views	8700x3x4	# 1
Action Classification	Kinetics-400	TubeVit-B (ImageNet-1k)	Parameters (M)	86	# 23
Action Classification	Kinetics-400	TubeVit-L (ImageNet-1k)	Acc@1	90.2	# 8
Action Classification	Kinetics-400	TubeVit-L (ImageNet-1k)	Acc@5	98.6	# 4
Action Classification	Kinetics-400	TubeVit-L (ImageNet-1k)	FLOPs (G) x views	95300x4x3	# 1
Action Classification	Kinetics-400	TubeVit-L (ImageNet-1k)	Parameters (M)	307	# 27
Action Classification	Kinetics-400	TubeViT-H (ImageNet-1k)	Acc@1	90.9	# 5
Action Classification	Kinetics-400	TubeViT-H (ImageNet-1k)	Acc@5	98.9	# 1
Action Classification	Kinetics-400	TubeViT-H (ImageNet-1k)	FLOPs (G) x views	176400x4x3	# 1
Action Classification	Kinetics-400	TubeViT-H (ImageNet-1k)	Parameters (M)	632	# 29
Action Classification	Kinetics-600	TubeVit-B	Top-1 Accuracy	90.9	# 7
Action Classification	Kinetics-600	TubeVit-B	Top-5 Accuracy	97.3	# 14
Action Classification	Kinetics-600	TubeVit-H	Top-1 Accuracy	91.8	# 2
Action Classification	Kinetics-600	TubeVit-H	Top-5 Accuracy	98.9	# 1
Action Classification	Kinetics-600	TubeVit-L	Top-1 Accuracy	91.5	# 4
Action Classification	Kinetics-600	TubeVit-L	Top-5 Accuracy	98.7	# 3
Action Classification	Kinetics-700	TubeViT-L	Top-1 Accuracy	83.8	# 4
Action Classification	Kinetics-700	TubeViT-L	Top-5 Accuracy	96.6	# 2
Action Recognition	Something-Something V2	TubeViT-L	Top-1 Accuracy	76.1	# 8
Action Recognition	Something-Something V2	TubeViT-L	Top-5 Accuracy	95.2	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/rethinking-video-vits-sparse-video-tubes-for/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=rethinking-video-vits-sparse-video-tubes-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/rethinking-video-vits-sparse-video-tubes-for/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=rethinking-video-vits-sparse-video-tubes-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/rethinking-video-vits-sparse-video-tubes-for/action-classification-on-kinetics-700)](https://paperswithcode.com/sota/action-classification-on-kinetics-700?p=rethinking-video-vits-sparse-video-tubes-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/rethinking-video-vits-sparse-video-tubes-for/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=rethinking-video-vits-sparse-video-tubes-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/rethinking-video-vits-sparse-video-tubes-for/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=rethinking-video-vits-sparse-video-tubes-for)`

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

CVPR 2023 · AJ Piergiovanni, Weicheng Kuo, Anelia Angelova ·

We present a simple approach which can turn a ViT encoder into an efficient video model, which can seamlessly work with both image and video inputs. By sparsely sampling the inputs, the model is able to do training and inference from both inputs. The model is easily scalable and can be adapted to large-scale pre-trained ViTs without requiring full finetuning. The model achieves SOTA results and the code will be open-sourced.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

daniel-code/TubeViT

Tasks

Add Remove

Action Classification

Action Recognition

Action Recognition In Videos

Datasets

Kinetics

Kinetics 400

Charades

Something-Something V2

Kinetics-600

Kinetics-700 JFT-3B

Results from the Paper

Edit

Ranked #2 on Action Classification on Kinetics-600 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Charades	TubeViT-L	MAP	66.2	# 2	Compare
Action Classification	Kinetics-400	TubeVit-B (ImageNet-1k)	Acc@1	88.6	# 18	Compare
			Acc@5	97.6	# 18	Compare
			FLOPs (G) x views	8700x3x4	# 1	Compare
			Parameters (M)	86	# 23	Compare
Action Classification	Kinetics-400	TubeVit-L (ImageNet-1k)	Acc@1	90.2	# 8	Compare
			Acc@5	98.6	# 4	Compare
			FLOPs (G) x views	95300x4x3	# 1	Compare
			Parameters (M)	307	# 27	Compare
Action Classification	Kinetics-400	TubeViT-H (ImageNet-1k)	Acc@1	90.9	# 5	Compare
			Acc@5	98.9	# 1	Compare
			FLOPs (G) x views	176400x4x3	# 1	Compare
			Parameters (M)	632	# 29	Compare
Action Classification	Kinetics-600	TubeVit-B	Top-1 Accuracy	90.9	# 7	Compare
Action Classification	Kinetics-600	TubeVit-B	Top-5 Accuracy	97.3	# 14	Compare
Action Classification	Kinetics-600	TubeVit-H	Top-1 Accuracy	91.8	# 2	Compare
Action Classification	Kinetics-600	TubeVit-H	Top-5 Accuracy	98.9	# 1	Compare
Action Classification	Kinetics-600	TubeVit-L	Top-1 Accuracy	91.5	# 4	Compare
Action Classification	Kinetics-600	TubeVit-L	Top-5 Accuracy	98.7	# 3	Compare
Action Classification	Kinetics-700	TubeViT-L	Top-1 Accuracy	83.8	# 4	Compare
Action Classification	Kinetics-700	TubeViT-L	Top-5 Accuracy	96.6	# 2	Compare
Action Recognition	Something-Something V2	TubeViT-L	Top-1 Accuracy	76.1	# 8	Compare
Action Recognition	Something-Something V2	TubeViT-L	Top-5 Accuracy	95.2	# 4	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove