TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Text-to-Image Generation	MS COCO	CogView	FID	27.1	# 54
Text-to-Image Generation	MS COCO	CogView	Inception score	18.2	# 19
Text-to-Image Generation	MS COCO	CogView	FID-1	19.4	# 1
Text-to-Image Generation	MS COCO	CogView	FID-8	23.6	# 3
Text-to-Image Generation	MS COCO	CogView	FID-2	13.9	# 1
Text-to-Image Generation	MS COCO	CogView	FID-4	19.4	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cogview-mastering-text-to-image-generation/text-to-image-generation-on-coco)](https://paperswithcode.com/sota/text-to-image-generation-on-coco?p=cogview-mastering-text-to-image-generation)`

CogView: Mastering Text-to-Image Generation via Transformers

NeurIPS 2021 · Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang ·

Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView achieves the state-of-the-art FID on the blurred MS COCO dataset, outperforming previous GAN-based models and a recent similar work DALL-E.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

THUDM/CogView official

1,609

thudm/visualglm-6b

3,960

thudm/cogview2

↳ Quickstart in

Spaces

Replicate

929

JunnYu/x-transformers-paddle

Tasks

Add Remove

Image Generation

Super-Resolution

Text-to-Image Generation

Zero-Shot Text-to-Image Generation

Datasets

MS COCO

Results from the Paper

Edit

Ranked #56 on Text-to-Image Generation on MS COCO (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Text-to-Image Generation	MS COCO	CogView	FID	27.1	# 54	Compare
			Inception score	18.2	# 19	Compare
			FID-1	19.4	# 1	Compare
			FID-8	23.6	# 3	Compare
			FID-2	13.9	# 1	Compare
			FID-4	19.4	# 2	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • VQ-VAE

Edit Social Preview

CogView: Mastering Text-to-Image Generation via Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove