no code implementations • CCL 2020 • Xiaodong Yan, Xiaoqing Xie
句子排序是多文档摘要系统和机器阅读理解中重要的任务之一, 排序的质量将直接 影响摘要和答案的连贯性与可读性。因此, 本文采用在中英文上大规模使用的深度 学习方法, 同时结合朝鲜语词语形态变化丰富的特点, 提出了一种基于子词级别词 向量和指针网络的朝鲜语句子排序模型, 其目的是解决传统方法无法挖掘深层语义 信息问题。 本文提出基于形态素拆分的词向量训练方法(MorV), 同时对比子词n元 词向量训练方法(SG), 得到朝鲜语词向量;采用了两种句向量方法:基于卷积神经网 络(CNN)、基于长短时记忆网络(LSTM), 结合指针网络分别进行实验。结果表明本文 采用MorV和LSTM的句向量结合方法可以更好地捕获句子间的语义逻辑关系, 提升句 子排序的效果。 关键词: 词向量 ;形态素拆分 ;指针网络 ;句子排序
no code implementations • CCL 2020 • Xiaodong Yan, Xiaoqing Xie, Yu Zou, Wei Li
Seq2seq神经网络模型在中英文文本摘要的研究中取得了良好的效果, 但在低资源语言的文本摘要研究还处于探索阶段, 尤其是在藏语中。此外, 目前还没有大规模的标注语料库进行摘要提取。本文提出了一种生成藏文新闻摘要的统一模型。利用TextRank算法解决了藏语标注训练数据不足的问题。然后, 采用两层双GRU神经网络提取代表原始新闻的句子, 减少冗余信息。最后, 使用基于注意力机制的Seq2Seq来生成理解式摘要。同时, 我们加入了指针网络来处理未登录词的问题。实验结果表明, ROUGE-1评分比传统模型提高了2%。 关键词:文本摘要;藏文;TextRank; 指针网络;Bi-GRU