TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
SQL Parsing	Academic	Seq2Seq with copying	Question Split	81	# 1
SQL Parsing	Academic	Seq2Seq with copying	Query Split	74	# 1
SQL Parsing	Academic	Template Baseline	Question Split	0	# 3
SQL Parsing	Academic	Template Baseline	Query Split	0	# 3
SQL Parsing	Advising	Seq2Seq with copying	Question Split	70	# 2
SQL Parsing	Advising	Seq2Seq with copying	Query Split	0	# 2
SQL Parsing	Advising	Template Baseline	Question Split	80	# 1
SQL Parsing	Advising	Template Baseline	Query Split	0	# 2
SQL Parsing	ATIS	Seq2Seq with copying	Question Split	51	# 1
SQL Parsing	ATIS	Seq2Seq with copying	Query Split	32	# 1
SQL Parsing	ATIS	Template Baseline	Question Split	45	# 2
SQL Parsing	ATIS	Template Baseline	Query Split	0	# 3
SQL Parsing	GeoQuery	Template Baseline	Question Split	66	# 2
SQL Parsing	GeoQuery	Template Baseline	Query Split	0	# 3
SQL Parsing	GeoQuery	Seq2Seq with copying	Question Split	71	# 1
SQL Parsing	GeoQuery	Seq2Seq with copying	Query Split	20	# 2
SQL Parsing	IMDb	Seq2Seq with copying	Question Split	26	# 1
SQL Parsing	IMDb	Seq2Seq with copying	Query Split	9	# 1
SQL Parsing	IMDb	Template Baseline	Question Split	0	# 3
SQL Parsing	IMDb	Template Baseline	Query Split	0	# 3
SQL Parsing	Restaurants	Seq2Seq with copying	Question Split	100	# 1
SQL Parsing	Restaurants	Seq2Seq with copying	Query Split	4	# 2
SQL Parsing	Restaurants	Template Baseline	Question Split	95	# 3
SQL Parsing	Restaurants	Template Baseline	Query Split	0	# 3
SQL Parsing	Scholar	Seq2Seq with copying	Question Split	59	# 1
SQL Parsing	Scholar	Seq2Seq with copying	Query Split	5	# 1
SQL Parsing	Scholar	Template Baseline	Question Split	52	# 2
SQL Parsing	Scholar	Template Baseline	Query Split	0	# 3
SQL Parsing	Yelp	Seq2Seq with copying	Question Split	12	# 1
SQL Parsing	Yelp	Seq2Seq with copying	Query Split	4	# 2
SQL Parsing	Yelp	Template Baseline	Question Split	1	# 3
SQL Parsing	Yelp	Template Baseline	Query Split	0	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-academic)](https://paperswithcode.com/sota/sql-parsing-on-academic?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-advising)](https://paperswithcode.com/sota/sql-parsing-on-advising?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-atis)](https://paperswithcode.com/sota/sql-parsing-on-atis?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-geoquery)](https://paperswithcode.com/sota/sql-parsing-on-geoquery?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-imdb)](https://paperswithcode.com/sota/sql-parsing-on-imdb?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-restaurants)](https://paperswithcode.com/sota/sql-parsing-on-restaurants?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-scholar)](https://paperswithcode.com/sota/sql-parsing-on-scholar?p=improving-text-to-sql-evaluation-methodology)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-text-to-sql-evaluation-methodology/sql-parsing-on-yelp)](https://paperswithcode.com/sota/sql-parsing-on-yelp?p=improving-text-to-sql-evaluation-methodology)`

Improving Text-to-SQL Evaluation Methodology

ACL 2018 · Catherine Finegan-Dollak, Jonathan K. Kummerfeld, Li Zhang, Karthik Ramanathan, Sesh Sadasivam, Rui Zhang, Dragomir Radev ·

To be informative, an evaluation must measure how well systems generalize to realistic unseen data. We identify limitations of and propose improvements to current evaluations of text-to-SQL systems. First, we compare human-generated and automatically generated questions, characterizing properties of queries necessary for real-world applications. To facilitate evaluation on multiple datasets, we release standardized and improved versions of seven existing datasets and one new text-to-SQL dataset. Second, we show that the current division of data into training and test sets measures robustness to variations in the way questions are asked, but only partially tests how well systems generalize to new queries; therefore, we propose a complementary dataset split for evaluation of future work. Finally, we demonstrate how the common practice of anonymizing variables during evaluation removes an important challenge of the task. Our observations highlight key difficulties, and our methodology enables effective measurement of future development.

PDF Abstract ACL 2018 PDF ACL 2018 Abstract

Code

Add Remove Mark official

jkkummerfeld/text2sql-data official

502

Tasks

Add Remove

SQL Parsing

Text-To-SQL

Datasets

IMDb Movie Reviews

ATIS

WikiSQL Yelp

Results from the Paper

Edit

Ranked #1 on SQL Parsing on IMDb

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
SQL Parsing	Academic	Seq2Seq with copying	Question Split	81	# 1	Compare
SQL Parsing	Academic	Seq2Seq with copying	Query Split	74	# 1	Compare
SQL Parsing	Academic	Template Baseline	Question Split	0	# 3	Compare
SQL Parsing	Academic	Template Baseline	Query Split	0	# 3	Compare
SQL Parsing	Advising	Seq2Seq with copying	Question Split	70	# 2	Compare
SQL Parsing	Advising	Seq2Seq with copying	Query Split	0	# 2	Compare
SQL Parsing	Advising	Template Baseline	Question Split	80	# 1	Compare
SQL Parsing	Advising	Template Baseline	Query Split	0	# 2	Compare
SQL Parsing	ATIS	Seq2Seq with copying	Question Split	51	# 1	Compare
SQL Parsing	ATIS	Seq2Seq with copying	Query Split	32	# 1	Compare
SQL Parsing	ATIS	Template Baseline	Question Split	45	# 2	Compare
SQL Parsing	ATIS	Template Baseline	Query Split	0	# 3	Compare
SQL Parsing	GeoQuery	Template Baseline	Question Split	66	# 2	Compare
SQL Parsing	GeoQuery	Template Baseline	Query Split	0	# 3	Compare
SQL Parsing	GeoQuery	Seq2Seq with copying	Question Split	71	# 1	Compare
SQL Parsing	GeoQuery	Seq2Seq with copying	Query Split	20	# 2	Compare
SQL Parsing	IMDb	Seq2Seq with copying	Question Split	26	# 1	Compare
SQL Parsing	IMDb	Seq2Seq with copying	Query Split	9	# 1	Compare
SQL Parsing	IMDb	Template Baseline	Question Split	0	# 3	Compare
SQL Parsing	IMDb	Template Baseline	Query Split	0	# 3	Compare
SQL Parsing	Restaurants	Seq2Seq with copying	Question Split	100	# 1	Compare
SQL Parsing	Restaurants	Seq2Seq with copying	Query Split	4	# 2	Compare
SQL Parsing	Restaurants	Template Baseline	Question Split	95	# 3	Compare
SQL Parsing	Restaurants	Template Baseline	Query Split	0	# 3	Compare
SQL Parsing	Scholar	Seq2Seq with copying	Question Split	59	# 1	Compare
SQL Parsing	Scholar	Seq2Seq with copying	Query Split	5	# 1	Compare
SQL Parsing	Scholar	Template Baseline	Question Split	52	# 2	Compare
SQL Parsing	Scholar	Template Baseline	Query Split	0	# 3	Compare
SQL Parsing	Yelp	Seq2Seq with copying	Question Split	12	# 1	Compare
SQL Parsing	Yelp	Seq2Seq with copying	Query Split	4	# 2	Compare
SQL Parsing	Yelp	Template Baseline	Question Split	1	# 3	Compare
SQL Parsing	Yelp	Template Baseline	Query Split	0	# 3	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Improving Text-to-SQL Evaluation Methodology

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove