no code implementations • CCL 2020 • Peiyi Yan, Bin Li, Tong Huang, Kairui Huo, Jin Chen, Weiguang Qu
疑问句的句法语义分析在搜索引擎、信息抽取和问答系统等领域有着广泛的应用。计算语言学多采取问句分类和句法分析相结合的方式来处理疑问句, 精度和效率还不理想。而疑问句的语言学研究成果丰富, 比如疑问句的结构类型、疑问焦点和疑问代词的非疑问用法等, 但缺乏系统的形式化表示。本文致力于解决这一难题, 采用基于图结构的汉语句子语义的整体表示方法—中文抽象语义表示(CAMR)来标注疑问句的语义结构, 将疑问焦点和整句语义一体化表示出来。然后选取了宾州中文树库CTB8. 0网络媒体语料、小学语文教材以及《小王子》中文译本的2万句语料中共计2071句疑问句, 统计了疑问句的主要特点。统计表明, 各种疑问代词都可以通过疑问概念amr-unknown和语义关系的组合来表示, 能够完整地表示出疑问句的关键信息、疑问焦点和语义结构。最后, 根据疑问代词所关联的语义关系, 统计了疑问焦点的概率分布, 其中原因、修饰语和受事的占比最高, 分别占26. 53%、16. 73%以及16. 44%。基于抽象语义表示的疑问句标注与分析可以为汉语疑问句研究提供基础理论与资源。
no code implementations • CCL 2020 • Tong Huang, Bin Li, Peiyi Yan, Tingting Ji, Weiguang Qu
对话分析是智能客服、聊天机器人等自然语言对话应用的基础课题, 而对话语料与常规书面语料有较大差异, 存在大量的称谓、情感短语、省略、语序颠倒、冗余等复杂现象, 对句法和语义分析器的影响较大, 对话自动分析的准确率相对书面语料一直不高。其主要原因在于对多轮对话缺乏严整的形式化描写方式, 不利于后续的分析计算。因此, 本文在梳理国内外针对对话的标注体系和语料库的基础上, 提出了基于抽象语义表示的篇章级多轮对话标注体系。具体探讨了了篇章级别的语义结构标注方法, 给出了词语和概念关系的对齐方案, 针对称谓语和情感短语增加了相应的语义关系和概念, 调整了表示主观情感词语的论元结构, 并对对话中一些特殊现象进行了规定, 设计了人工标注平台, 为大规模的多轮对话语料库标注与计算研究奠定基础。
no code implementations • WS 2019 • Yihuan Liu, Bin Li, Peiyi Yan, Li Song, Weiguang Qu
We find that 54. 98{\%} of sentences have ellipses.