TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Coreference Resolution	Winograd Schema Challenge	BERT-base 110M (fine-tuned on WSCR)	Accuracy	62.3	# 51
Coreference Resolution	Winograd Schema Challenge	BERT-large 340M (fine-tuned on WSCR)	Accuracy	71.4	# 32
Coreference Resolution	Winograd Schema Challenge	BERTwiki 340M (fine-tuned on WSCR)	Accuracy	72.5	# 30
Coreference Resolution	Winograd Schema Challenge	BERTwiki 340M (fine-tuned on half of WSCR)	Accuracy	70.3	# 34
Natural Language Inference	WNLI	BERT-base 110M (fine-tuned on WSCR)	Accuracy	70.5	# 16
Natural Language Inference	WNLI	BERT-large 340M (fine-tuned on WSCR)	Accuracy	71.9	# 15
Natural Language Inference	WNLI	BERTwiki 340M (fine-tuned on WSCR)	Accuracy	74.7	# 13

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-surprisingly-robust-trick-for-winograd/natural-language-inference-on-wnli)](https://paperswithcode.com/sota/natural-language-inference-on-wnli?p=a-surprisingly-robust-trick-for-winograd)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-surprisingly-robust-trick-for-winograd/coreference-resolution-on-winograd-schema)](https://paperswithcode.com/sota/coreference-resolution-on-winograd-schema?p=a-surprisingly-robust-trick-for-winograd)`

A Surprisingly Robust Trick for Winograd Schema Challenge

15 May 2019 · Vid Kocijan, Ana-Maria Cretu, Oana-Maria Camburu, Yordan Yordanov, Thomas Lukasiewicz ·

The Winograd Schema Challenge (WSC) dataset WSC273 and its inference counterpart WNLI are popular benchmarks for natural language understanding and commonsense reasoning. In this paper, we show that the performance of three language models on WSC273 strongly improves when fine-tuned on a similar pronoun disambiguation problem dataset (denoted WSCR). We additionally generate a large unsupervised WSC-like dataset. By fine-tuning the BERT language model both on the introduced and on the WSCR dataset, we achieve overall accuracies of 72.5% and 74.7% on WSC273 and WNLI, improving the previous state-of-the-art solutions by 8.8% and 9.6%, respectively. Furthermore, our fine-tuned models are also consistently more robust on the "complex" subsets of WSC273, introduced by Trichelair et al. (2018).

PDF Abstract

Code

Add Remove Mark official

vid-koci/bert-commonsense official

TangJiaLong/Knowledge-Projection-fo…

Tasks

Add Remove

Common Sense Reasoning

Coreference Resolution

Language Modelling

Natural Language Inference

Natural Language Understanding

WNLI

Datasets

GLUE

WSC WNLI

Results from the Paper

Edit

Ranked #13 on Natural Language Inference on WNLI

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Coreference Resolution	Winograd Schema Challenge	BERT-base 110M (fine-tuned on WSCR)	Accuracy	62.3	# 51	Compare
Coreference Resolution	Winograd Schema Challenge	BERT-large 340M (fine-tuned on WSCR)	Accuracy	71.4	# 32	Compare
Coreference Resolution	Winograd Schema Challenge	BERTwiki 340M (fine-tuned on WSCR)	Accuracy	72.5	# 30	Compare
Coreference Resolution	Winograd Schema Challenge	BERTwiki 340M (fine-tuned on half of WSCR)	Accuracy	70.3	# 34	Compare
Natural Language Inference	WNLI	BERT-base 110M (fine-tuned on WSCR)	Accuracy	70.5	# 16	Compare
Natural Language Inference	WNLI	BERT-large 340M (fine-tuned on WSCR)	Accuracy	71.9	# 15	Compare
Natural Language Inference	WNLI	BERTwiki 340M (fine-tuned on WSCR)	Accuracy	74.7	# 13	Compare

Methods

Add Remove

Adam • Attention Dropout • BERT • Dense Connections • Dropout • GELU • Layer Normalization • Linear Layer • Linear Warmup With Linear Decay • Multi-Head Attention • Residual Connection • Scaled Dot-Product Attention • Softmax • Weight Decay • WordPiece

Edit Social Preview

A Surprisingly Robust Trick for Winograd Schema Challenge

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove