TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Chart Question Answering	ChartQA	PaLI-X (Single-task FT w/ OCR)	1:1 Accuracy	72.3	# 9
Chart Question Answering	ChartQA	PaLI-X (Multi-task FT)	1:1 Accuracy	70.6	# 11
Chart Question Answering	ChartQA	PaLI-X (Single-task FT)	1:1 Accuracy	70.9	# 10
Visual Question Answering (VQA)	DocVQA test	PaLI-X (Single-task FT)	ANLS	0.80	# 22
Visual Question Answering (VQA)	DocVQA test	PaLI-X (Single-task FT w/ OCR)	ANLS	0.868	# 13
Visual Question Answering (VQA)	DocVQA test	PaLI-X (Multi-task FT)	ANLS	0.809	# 20
Visual Question Answering (VQA)	InfographicVQA	PaLI-X (Multi-task FT)	ANLS	50.7	# 11
Visual Question Answering (VQA)	InfographicVQA	PaLI-X (Single-task FT)	ANLS	49.2	# 12
Visual Question Answering (VQA)	InfographicVQA	PaLI-X (Single-task FT w/ OCR)	ANLS	54.8	# 9
Visual Question Answering (VQA)	InfoSeek	PaLI-X	Accuracy	24	# 2
Temporal/Casual QA	NExT-QA	PaLI-X	WUPS	38.3	# 1
Visual Question Answering (VQA)	OK-VQA	PaLI-X (Single-task FT)	Accuracy	66.1	# 2
Fine-Grained Image Recognition	OVEN	PaLI-X	Accuracy	23.1	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/temporal-casual-qa-on-next-qa)](https://paperswithcode.com/sota/temporal-casual-qa-on-next-qa?p=pali-x-on-scaling-up-a-multilingual-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/fine-grained-image-recognition-on-oven)](https://paperswithcode.com/sota/fine-grained-image-recognition-on-oven?p=pali-x-on-scaling-up-a-multilingual-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/visual-question-answering-vqa-on-infoseek)](https://paperswithcode.com/sota/visual-question-answering-vqa-on-infoseek?p=pali-x-on-scaling-up-a-multilingual-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/visual-question-answering-on-ok-vqa)](https://paperswithcode.com/sota/visual-question-answering-on-ok-vqa?p=pali-x-on-scaling-up-a-multilingual-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/chart-question-answering-on-chartqa)](https://paperswithcode.com/sota/chart-question-answering-on-chartqa?p=pali-x-on-scaling-up-a-multilingual-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/visual-question-answering-vqa-on)](https://paperswithcode.com/sota/visual-question-answering-vqa-on?p=pali-x-on-scaling-up-a-multilingual-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/pali-x-on-scaling-up-a-multilingual-vision/visual-question-answering-on-docvqa-test)](https://paperswithcode.com/sota/visual-question-answering-on-docvqa-test?p=pali-x-on-scaling-up-a-multilingual-vision)`

PaLI-X: On Scaling up a Multilingual Vision and Language Model

29 May 2023 · Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, Siamak Shakeri, Mostafa Dehghani, Daniel Salz, Mario Lucic, Michael Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang, Ceslee Montgomery, Paulina Pietrzyk, Marvin Ritter, AJ Piergiovanni, Matthias Minderer, Filip Pavetic, Austin Waters, Gang Li, Ibrahim Alabdulmohsin, Lucas Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li, Daniel Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov, Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut ·

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of performance on a wide-range of varied and complex tasks, including multiple image-based captioning and question-answering tasks, image-based document understanding and few-shot (in-context) learning, as well as object detection, video question answering, and video captioning. PaLI-X advances the state-of-the-art on most vision-and-language benchmarks considered (25+ of them). Finally, we observe emerging capabilities, such as complex counting and multilingual object detection, tasks that are not explicitly in the training mix.

PDF Abstract

Code

Add Remove Mark official

kyegomez/PALI

doc-doc/NExT-OE

Tasks

Add Remove

Chart Question Answering

document understanding

Fine-Grained Image Recognition

In-Context Learning

Language Modelling

Object

object-detection

Object Detection

Question Answering

Temporal/Casual QA

Video Captioning

Video Question Answering

Visual Question Answering (VQA)

Datasets

CelebA

Visual Question Answering

ActivityNet

MSR-VTT

LVIS

ImageNet-R

ImageNet-A

OK-VQA

ImageNet-Sketch

TextVQA FairFace

NoCaps

VizWiz DocVQA

VATEX

ActivityNet-QA

NExT-QA

ST-VQA ChartQA TextCaps

AI2D

InfographicVQA TallyQA

InfoSeek

Screen2Words

MIAP

OVEN

Results from the Paper

Edit

Ranked #1 on Fine-Grained Image Recognition on OVEN

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Chart Question Answering	ChartQA	PaLI-X (Single-task FT w/ OCR)	1:1 Accuracy	72.3	# 9	Compare
Chart Question Answering	ChartQA	PaLI-X (Multi-task FT)	1:1 Accuracy	70.6	# 11	Compare
Chart Question Answering	ChartQA	PaLI-X (Single-task FT)	1:1 Accuracy	70.9	# 10	Compare
Visual Question Answering (VQA)	DocVQA test	PaLI-X (Single-task FT)	ANLS	0.80	# 22	Compare
Visual Question Answering (VQA)	DocVQA test	PaLI-X (Single-task FT w/ OCR)	ANLS	0.868	# 13	Compare
Visual Question Answering (VQA)	DocVQA test	PaLI-X (Multi-task FT)	ANLS	0.809	# 20	Compare
Visual Question Answering (VQA)	InfographicVQA	PaLI-X (Multi-task FT)	ANLS	50.7	# 11	Compare
Visual Question Answering (VQA)	InfographicVQA	PaLI-X (Single-task FT)	ANLS	49.2	# 12	Compare
Visual Question Answering (VQA)	InfographicVQA	PaLI-X (Single-task FT w/ OCR)	ANLS	54.8	# 9	Compare
Visual Question Answering (VQA)	InfoSeek	PaLI-X	Accuracy	24	# 2	Compare
Temporal/Casual QA	NExT-QA	PaLI-X	WUPS	38.3	# 1	Compare
Visual Question Answering (VQA)	OK-VQA	PaLI-X (Single-task FT)	Accuracy	66.1	# 2	Compare
Fine-Grained Image Recognition	OVEN	PaLI-X	Accuracy	23.1	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove