Search Results for author: Bingjie Du

Found 3 papers, 0 papers with code

基于计量的百年中国人名用字性别特征研究(A Quantified Research on Gender Characteristics of Chinese Names in A Century)

no code implementations CCL 2020 Bingjie Du, Pengyuan Liu, Yongsheng Tian

本文构建了一个包含11万以上条目规模的中国名人人名数据库, 每条数据含有人名、性别、出生地等社会文化标签, 同时含有拼音、笔画、偏旁等文字信息标签, 这是目前已知最大的可用于研究的汉语真人人名数据库。基于该数据库, 本文从中选择1919年至今的人名, 用定性与定量结合的方法探究人名中汉字的特征和其性别差异以及历时变化。从人名长度来看, 男性人名比女性人名长;从人名用字的难易度来看, 女性用字比男性更复杂;从用字丰富度来看, 人名用字越来越单一和集中化, 男性人名的用字丰富度大于女性人名。计算人名用字的性别偏度后发现女性人名的专用自更多。两性用字意象有明显的不同, 用字的意象随着时间发生改变, 但改变最明显的时间节点是改革开放前后, 其中女性的变化比男性显著。除此之外, 我们还得出人名中的性别极性字表、各个阶段的高频字表、用字变化趋势表等。

中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估(Construction of Chinese Sentence-Level Gender-Unbiased Data Set and Evaluation of Gender Bias in Pre-Training Language)

no code implementations CCL 2021 Jishun Zhao, Bingjie Du, Shucheng Zhu, Pengyuan Liu

“自然语言处理领域各项任务中, 模型广泛存在性别偏见。然而当前尚无中文性别偏见评估和消偏的相关数据集, 因此无法对中文自然语言处理模型中的性别偏见进行评估。首先本文根据16对性别称谓词, 从一个平面媒体语料库中筛选出性别无偏的句子, 构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet。随后, 本文提出了一个可衡量预训练语言模型性别偏见程度的指标, 并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明, 中文预训练语言模型中存在不同程度的性别偏见, 该文所构建数据集能够很好的对中文预训练语言模型中的性别偏见进行评估。同时, 该数据集还可作为评估预训练语言模型消偏方法的数据集。”

Cannot find the paper you are looking for? You can Submit a new open access paper.