Fine-tuning Neural Machine Translation on Gender-Balanced Datasets

GeBNLP (COLING) 2020 · Marta R. Costa-jussà, Adrià de Jorge ·

Misrepresentation of certain communities in datasets is causing big disruptions in artificial intelligence applications. In this paper, we propose using an automatically extracted gender-balanced dataset parallel corpus from Wikipedia. This balanced set is used to perform fine-tuning techniques from a bigger model trained on unbalanced datasets to mitigate gender biases in neural machine translation.

PDF Abstract