TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Mathematical Reasoning	Lila (IID)	GPT-3 (Few-Shot, 175B)	Accuracy	0.384	# 4
Mathematical Reasoning	Lila (IID)	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	# 2
Mathematical Reasoning	Lila (IID)	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.252	# 5
Mathematical Reasoning	Lila (IID)	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.394	# 3
Mathematical Reasoning	Lila (IID)	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.204	# 6
Mathematical Reasoning	Lila (IID)	Codex (Few-Shot, 175B)	Accuracy	0.604	# 1
Mathematical Reasoning	Lila (OOD)	Codex (Few-Shot, 175B)	Accuracy	0.586	# 1
Mathematical Reasoning	Lila (OOD)	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.448	# 2
Mathematical Reasoning	Lila (OOD)	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.177	# 6
Mathematical Reasoning	Lila (OOD)	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.268	# 4
Mathematical Reasoning	Lila (OOD)	GPT-3 (Few-Shot, 175B)	Accuracy	0.384	# 3
Mathematical Reasoning	Lila (OOD)	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.238	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lila-a-unified-benchmark-for-mathematical/mathematical-reasoning-on-lila-iid)](https://paperswithcode.com/sota/mathematical-reasoning-on-lila-iid?p=lila-a-unified-benchmark-for-mathematical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lila-a-unified-benchmark-for-mathematical/mathematical-reasoning-on-lila-ood)](https://paperswithcode.com/sota/mathematical-reasoning-on-lila-ood?p=lila-a-unified-benchmark-for-mathematical)`

Lila: A Unified Benchmark for Mathematical Reasoning

31 Oct 2022 · Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck, Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter Clark, Ashwin Kalyan ·

Mathematical reasoning skills are essential for general-purpose intelligent systems to perform tasks from grocery shopping to climate modeling. Towards evaluating and improving AI systems in this domain, we propose LILA, a unified mathematical reasoning benchmark consisting of 23 diverse tasks along four dimensions: (i) mathematical abilities e.g., arithmetic, calculus (ii) language format e.g., question-answering, fill-in-the-blanks (iii) language diversity e.g., no language, simple language (iv) external knowledge e.g., commonsense, physics. We construct our benchmark by extending 20 datasets benchmark by collecting task instructions and solutions in the form of Python programs, thereby obtaining explainable solutions in addition to the correct answer. We additionally introduce two evaluation datasets to measure out-of-distribution performance and robustness to language perturbation. Finally, we introduce BHASKARA, a general-purpose mathematical reasoning model trained on LILA. Importantly, we find that multi-tasking leads to significant improvements (average relative improvement of 21.83% F1 score vs. single-task models), while the best performing model only obtains 60.40%, indicating the room for improvement in general mathematical reasoning and understanding.

PDF Abstract

Code

Add Remove Mark official

allenai/lila official

Tasks

Add Remove

Mathematical Reasoning

Question Answering

Datasets

Introduced in the Paper:

Lila

Results from the Paper

Edit

Ranked #1 on Mathematical Reasoning on Lila (OOD)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Mathematical Reasoning	Lila (IID)	GPT-3 (Few-Shot, 175B)	Accuracy	0.384	# 4	Compare
Mathematical Reasoning	Lila (IID)	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	# 2	Compare
Mathematical Reasoning	Lila (IID)	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.252	# 5	Compare
Mathematical Reasoning	Lila (IID)	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.394	# 3	Compare
Mathematical Reasoning	Lila (IID)	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.204	# 6	Compare
Mathematical Reasoning	Lila (IID)	Codex (Few-Shot, 175B)	Accuracy	0.604	# 1	Compare
Mathematical Reasoning	Lila (OOD)	Codex (Few-Shot, 175B)	Accuracy	0.586	# 1	Compare
Mathematical Reasoning	Lila (OOD)	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.448	# 2	Compare
Mathematical Reasoning	Lila (OOD)	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.177	# 6	Compare
Mathematical Reasoning	Lila (OOD)	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.268	# 4	Compare
Mathematical Reasoning	Lila (OOD)	GPT-3 (Few-Shot, 175B)	Accuracy	0.384	# 3	Compare
Mathematical Reasoning	Lila (OOD)	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.238	# 5	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Lila: A Unified Benchmark for Mathematical Reasoning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove