HellaSwag

Introduced by Zellers et al. in HellaSwag: Can a Machine Really Finish Your Sentence?

HellaSwag is a challenge dataset for evaluating commonsense NLI that is specially hard for state-of-the-art models, though its questions are trivial for humans (>95% accuracy).

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Sentence Completion	HellaSwag	CompassMTL 567M with Tailor

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

huggingface/datasets (hellaswag_ita)

18,406

huggingface/datasets (hellaswag)

18,406

huggingface/datasets (hellaswag)

18,406

huggingface/datasets (hellaswag-tr)

18,406

huggingface/datasets (syc-hellaswag2)

18,406

huggingface/datasets (hellaswag-turkish)

18,406

tensorflow/datasets

4,175

Tasks

Sentence Completion

HellaSwag

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Similar Datasets

OpenBookQA

BoolQ

MMLU

PIQA

Usage

License

Modalities

Languages

Similar Datasets

huggingface/datasets (hellaswag_ita)
18,406

huggingface/datasets (hellaswag)
18,406

huggingface/datasets (hellaswag)
18,406

huggingface/datasets (hellaswag-tr)
18,406

huggingface/datasets (syc-hellaswag2)
18,406

huggingface/datasets (hellaswag-turkish)
18,406

HellaSwag

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit

Similar Datasets

OpenBookQA

BoolQ

MMLU

PIQA

Usage

License Edit

Modalities Edit

Languages Edit

Benchmarks

Add a new result Link an existing benchmark

Dataset Loaders

Add Remove

Tasks

License

Modalities

Languages