TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Relation Extraction	ChemProt	BioBERT	F1	76.46	# 8
Drug–drug Interaction Extraction	DDI extraction 2013 corpus	BioBERT	F1	0.8088	# 4
Drug–drug Interaction Extraction	DDI extraction 2013 corpus	BioBERT	Micro F1	80.88	# 4
Named Entity Recognition (NER)	JNLPBA	BioBERT	F1	77.59	# 13
Question Answering	MedQA	BioBERT (large)	Accuracy	36.7	# 18
Question Answering	MedQA	BioBERT (base)	Accuracy	34.1	# 19
Named Entity Recognition (NER)	NCBI-disease	BioBERT	F1	89.71	# 5
Representation Learning	SciDocs	BioBERT	Avg.	58.8	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/biobert-a-pre-trained-biomedical-language/drug-drug-interaction-extraction-on-ddi)](https://paperswithcode.com/sota/drug-drug-interaction-extraction-on-ddi?p=biobert-a-pre-trained-biomedical-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/biobert-a-pre-trained-biomedical-language/named-entity-recognition-ner-on-ncbi-disease)](https://paperswithcode.com/sota/named-entity-recognition-ner-on-ncbi-disease?p=biobert-a-pre-trained-biomedical-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/biobert-a-pre-trained-biomedical-language/representation-learning-on-scidocs)](https://paperswithcode.com/sota/representation-learning-on-scidocs?p=biobert-a-pre-trained-biomedical-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/biobert-a-pre-trained-biomedical-language/relation-extraction-on-chemprot)](https://paperswithcode.com/sota/relation-extraction-on-chemprot?p=biobert-a-pre-trained-biomedical-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/biobert-a-pre-trained-biomedical-language/named-entity-recognition-ner-on-jnlpba)](https://paperswithcode.com/sota/named-entity-recognition-ner-on-jnlpba?p=biobert-a-pre-trained-biomedical-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/biobert-a-pre-trained-biomedical-language/question-answering-on-medqa-usmle)](https://paperswithcode.com/sota/question-answering-on-medqa-usmle?p=biobert-a-pre-trained-biomedical-language)`

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

25 Jan 2019 · Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang ·

Biomedical text mining is becoming increasingly important as the number of biomedical documents rapidly grows. With the progress in natural language processing (NLP), extracting valuable information from biomedical literature has gained popularity among researchers, and deep learning has boosted the development of effective biomedical text mining models. However, directly applying the advancements in NLP to biomedical text mining often yields unsatisfactory results due to a word distribution shift from general domain corpora to biomedical corpora. In this article, we investigate how the recently introduced pre-trained language model BERT can be adapted for biomedical corpora. We introduce BioBERT (Bidirectional Encoder Representations from Transformers for Biomedical Text Mining), which is a domain-specific language representation model pre-trained on large-scale biomedical corpora. With almost the same architecture across tasks, BioBERT largely outperforms BERT and previous state-of-the-art models in a variety of biomedical text mining tasks when pre-trained on biomedical corpora. While BERT obtains performance comparable to that of previous state-of-the-art models, BioBERT significantly outperforms them on the following three representative biomedical text mining tasks: biomedical named entity recognition (0.62% F1 score improvement), biomedical relation extraction (2.80% F1 score improvement) and biomedical question answering (12.24% MRR improvement). Our analysis results show that pre-training BERT on biomedical corpora helps it to understand complex biomedical texts. We make the pre-trained weights of BioBERT freely available at https://github.com/naver/biobert-pretrained, and the source code for fine-tuning BioBERT available at https://github.com/dmis-lab/biobert.

PDF Abstract

Code

Add Remove Mark official

dmis-lab/biobert official

1,832

naver/biobert-pretrained official

630

EmilyAlsentzer/clinicalBERT

623

re-search/DocProduct

↳ Quickstart in

Colab

559

plkmo/BERT-Relation-Extraction

554

See all 19 implementations

Tasks

Add Remove

Drug–drug Interaction Extraction

Language Modelling

Medical Named Entity Recognition

Medical Relation Extraction

Named Entity Recognition

Named Entity Recognition (NER)

Question Answering

Relation Extraction

Representation Learning

Sentence Classification

Datasets

NCBI Disease

MedQA

DDI

SciDocs JNLPBA ChemProt

Results from the Paper

Add Remove

Ranked #4 on Drug–drug Interaction Extraction on DDI extraction 2013 corpus

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Relation Extraction	ChemProt	BioBERT	F1	76.46	# 8	Compare
Drug–drug Interaction Extraction	DDI extraction 2013 corpus	BioBERT	F1	0.8088	# 4	Compare
Drug–drug Interaction Extraction	DDI extraction 2013 corpus	BioBERT	Micro F1	80.88	# 4	Compare
Named Entity Recognition (NER)	JNLPBA	BioBERT	F1	77.59	# 13	Compare
Question Answering	MedQA	BioBERT (large)	Accuracy	36.7	# 18	Compare
Question Answering	MedQA	BioBERT (base)	Accuracy	34.1	# 19	Compare
Named Entity Recognition (NER)	NCBI-disease	BioBERT	F1	89.71	# 5	Compare
Representation Learning	SciDocs	BioBERT	Avg.	58.8	# 6	Compare

Methods

Add Remove

Adam • Attention Dropout • BERT • Dense Connections • Dropout • GELU • Layer Normalization • Linear Layer • Linear Warmup With Linear Decay • Multi-Head Attention • Residual Connection • Scaled Dot-Product Attention • Softmax • Weight Decay • WordPiece

Edit Social Preview

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove