Search Results for author: Pengyuan Liu

Found 24 papers, 5 papers with code

中文自然语言处理多任务中的职业性别偏见测量(Measurement of Occupational Gender Bias in Chinese Natural Language Processing Tasks)

no code implementations CCL 2022 Mengqing Guo, Jiali Li, Jishun Zhao, Shucheng Zhu, Ying Liu, Pengyuan Liu

“尽管悲观者认为, 职场中永远不可能存在性别平等。但随着人们观念的转变, 愈来愈多的人们相信, 职业的选择应只与个人能力相匹配, 而不应由个体的性别决定。目前已经发现自然语言处理的各个任务中都存在着职业性别偏见。但这些研究往往只针对特定的英文任务, 缺乏针对中文的、综合多任务的职业性别偏见测量研究。本文基于霍兰德职业模型, 从中文自然语言处理中常见的三个任务出发, 测量了词向量、共指消解和文本生成中的职业性别偏见, 发现不同任务中的职业性别偏见既有一定的共性, 又存在着独特的差异性。总体来看, 不同任务中的职业性别偏见反映了现实生活中人们对于不同性别所选择职业的刻板印象。此外, 在设计不同任务的偏见测量指标时, 还需要考虑如语体、词序等语言学要素的影响。”

中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估(Construction of Chinese Sentence-Level Gender-Unbiased Data Set and Evaluation of Gender Bias in Pre-Training Language)

no code implementations CCL 2021 Jishun Zhao, Bingjie Du, Shucheng Zhu, Pengyuan Liu

“自然语言处理领域各项任务中, 模型广泛存在性别偏见。然而当前尚无中文性别偏见评估和消偏的相关数据集, 因此无法对中文自然语言处理模型中的性别偏见进行评估。首先本文根据16对性别称谓词, 从一个平面媒体语料库中筛选出性别无偏的句子, 构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet。随后, 本文提出了一个可衡量预训练语言模型性别偏见程度的指标, 并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明, 中文预训练语言模型中存在不同程度的性别偏见, 该文所构建数据集能够很好的对中文预训练语言模型中的性别偏见进行评估。同时, 该数据集还可作为评估预训练语言模型消偏方法的数据集。”

Sentence

中文关系抽取的句级语言学特征探究(A Probe into the Sentence-level Linguistic Features of Chinese Relation Extraction)

no code implementations CCL 2021 Baixi Xing, Jishun Zhao, Pengyuan Liu

“神经网络模型近些年在关系抽取任务上已经展示出了很好的效果, 然而我们对于特征提取的过程所知甚少, 而这也进一步限制了深度神经网络模型在关系抽取任务上的进一步发展。当前已有研究工作对英文关系抽取的语言学特征进行探究, 并且得到了一些规律。然而由于中文与西方语言之间明显的差异性, 其所探究到的规律与解释性不适用于中文关系抽取。本文首次对中文关系抽取神经网络进行探究, 采用了四个角度共13种探究任务, 其中包含中文特有的分词探究任务。在两个关系抽取数据集上进行了实验, 探究了中文关系抽取模型进行特征提取的规律。”

Relation Extraction Sentence

基于语料库的武侠与仙侠网络小说文体、词汇及主题对比分析(A Corpus-based Contrastive Analysis of Style, Vocabulary and Theme of Wuxia and Xianxia Internet Novels)

no code implementations CCL 2020 Sanle Zhang, Pengyuan Liu, Hu Zhang

网络文学在我国发展迅猛, 其数量和影响力呈现逐年上升的趋势, 但目前尚无公开的较大规模网络文学作品语料库, 鲜见基于语料库对网络文学具体类别作品的定量研究。本文初步建立了一个网络文学语料库, 其中包括武侠和仙侠网络小说, 使用文本计量、词频统计以及主题挖掘的方法对两类小说的文体风格、具体词汇使用和小说主题进行对比分析。通过比较, 我们发现两类小说的文体风格大致相同, 它们在词汇的使用和主题上既有共性又各具特色。从微观到宏观, 从表面到内容, 将定量统计和定性分析相结合, 多角度、多层次的对武侠和仙侠网络小说进行比较。

基于计量的百年中国人名用字性别特征研究(A Quantified Research on Gender Characteristics of Chinese Names in A Century)

no code implementations CCL 2020 Bingjie Du, Pengyuan Liu, Yongsheng Tian

本文构建了一个包含11万以上条目规模的中国名人人名数据库, 每条数据含有人名、性别、出生地等社会文化标签, 同时含有拼音、笔画、偏旁等文字信息标签, 这是目前已知最大的可用于研究的汉语真人人名数据库。基于该数据库, 本文从中选择1919年至今的人名, 用定性与定量结合的方法探究人名中汉字的特征和其性别差异以及历时变化。从人名长度来看, 男性人名比女性人名长;从人名用字的难易度来看, 女性用字比男性更复杂;从用字丰富度来看, 人名用字越来越单一和集中化, 男性人名的用字丰富度大于女性人名。计算人名用字的性别偏度后发现女性人名的专用自更多。两性用字意象有明显的不同, 用字的意象随着时间发生改变, 但改变最明显的时间节点是改革开放前后, 其中女性的变化比男性显著。除此之外, 我们还得出人名中的性别极性字表、各个阶段的高频字表、用字变化趋势表等。

小样本关系分类研究综述(Few-Shot Relation Classification: A Survey)

no code implementations CCL 2020 Han Hu, Pengyuan Liu

关系分类作为构建结构化知识的重要一环, 在自然语言处理领域备受关注。但在很多应用领域中(医疗、金融领域), 收集充足的用于训练关系分类模型的数据是十分困难的。近年来, 仅需要少量训练样本的小样本学习研究逐渐新兴于各大领域。本文对近期小样本关系分类模型与方法进行了系统的综述。根据度量方法的不同, 将现有方法分为原型式和分布式两大类。根据是否利用额外信息, 将模型分为预训练和非预训练两大类。此外, 除了常规设定下的小样本学习, 本文还梳理了跨领域和稀缺资源场景下的小样本学习, 并探讨了目前小样本关系分类方法的局限性, 分析了跨领域小样本 学习面临的技术挑战。最后, 展望了小样本关系分类未来的发展方向。

Few-Shot Relation Classification

Analysis of Gender Bias in Social Perception and Judgement Using Chinese Word Embeddings

no code implementations NAACL (GeBNLP) 2022 Jiali Li, Shucheng Zhu, Ying Liu, Pengyuan Liu

The results reveal that these grammatical gender-neutral Chinese word embeddings show a certain gender bias, which is consistent with the mainstream society’s perception and judgment of gender.

Word Embeddings

多目标情感分类中文数据集构建及分析研究(Construction and Analysis of Chinese Multi-Target Sentiment Classification Dataset)

no code implementations CCL 2020 Pengyuan Liu, Yongsheng Tian, Chengyu Du, Likun Qiu

目标级情感分类任务是要得到句子中特定评价目标的情感倾向。一个评论句中往往存在多个目标, 多个目标的情感可能一致, 也可能不一致。但在已有针对目标级情感分类的评测数据集中:1)大多数是一个句子一个目标;2)在少数有多个目标的句子中, 多个目标情感倾向分布很不均衡, 多个目标情感一致的情形占较大优势。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题, 本文构建了一个针对多目标情感分类的中文数据集, 人工标注了6339个评价目标, 共2071条数据。该数据集:1)评价目标个数分布平衡;2)情感正负极性分布平衡;3)多目标情感倾向分布平衡。随后, 本文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类, 尤其是目标的情感倾向为中性时。多目标情感分类任务具有一定的难度与挑战性。

Sentiment Analysis Sentiment Classification

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization

1 code implementation18 Feb 2024 Zhiyu Yang, Zihan Zhou, Shuo Wang, Xin Cong, Xu Han, Yukun Yan, Zhenghao Liu, Zhixing Tan, Pengyuan Liu, Dong Yu, Zhiyuan Liu, Xiaodong Shi, Maosong Sun

Scientific data visualization plays a crucial role in research by enabling the direct display of complex information and assisting researchers in identifying implicit patterns.

Code Generation Data Visualization

How does spatial structure affect psychological restoration? A method based on Graph Neural Networks and Street View Imagery

1 code implementation29 Nov 2023 Haoran Ma, Yan Zhang, Pengyuan Liu, Fan Zhang, Pengyu Zhu

In this work, a spatial-dependent graph neural networks (GNNs) approach is proposed to reveal the relation between spatial structure and restoration quality on an urban scale.

Knowledge and topology: A two layer spatially dependent graph neural networks to identify urban functions with time-series street view image

1 code implementation ISPRS Journal of Photogrammetry and Remote Sensing 2023 Yan Zhang, Pengyuan Liu, Filip Biljecki

In this paper, we construct an urban topological map network using OpenStreetMap data in Wuhan, China, and compute a semantic representation of the scene as a whole at the street scale using a large-scale pre-trained model.

Time Series

ECSP: A New Task for Emotion-Cause Span-Pair Extraction and Classification

no code implementations7 Mar 2020 Hongliang Bi, Pengyuan Liu

Emotion cause analysis such as emotion cause extraction (ECE) and emotion-cause pair extraction (ECPE) have gradually attracted the attention of many researchers.

Emotion Cause Extraction Emotion-Cause Pair Extraction +2

XCMRC: Evaluating Cross-lingual Machine Reading Comprehension

no code implementations15 Aug 2019 Pengyuan Liu, Yuning Deng, Chenghao Zhu, Han Hu

Chinese and English are rich-resource language pairs, in order to study low-resource cross-lingual machine reading comprehension (XMRC), besides defining the common XCMRC task which has no restrictions on use of external language resources, we also define the pseudo low-resource XCMRC task by limiting the language resources to be used.

Machine Reading Comprehension Sentence

Emotion Action Detection and Emotion Inference: the Task and Dataset

1 code implementation16 Mar 2019 Pengyuan Liu, Chengyu Du, Shuofeng Zhao, Chenghao Zhu

We are currently releasing the data-set with 10, 603 samples and 15, 892 events, basic statistic analysis and baseline on both emotion causality and emotion inference tasks.

Action Detection Emotion Classification +2

Cannot find the paper you are looking for? You can Submit a new open access paper.