no code implementations • CCL 2022 • Yujiao Han, Zhiyong Luo, Mingming Zhang, Zhilin Zhao, Qing Zhang
“机器阅读理解(Machine Reading Comprehension, MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前, 基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展, 但在涉及答案要素、线索要素和问题要素跨标点句、远距离关联时, 答案抽取的准确率还有待提升。本文通过篇章内话头话体结构分析, 建立标点句间远距离关联关系、补全共享缺失成分, 辅助机器阅读理解答案抽取;设计和实现融合话头话体结构信息的机器阅读理解模型, 在公开数据集CMRC2018上的实验结果表明, 模型的F1值相对于基线模型提升2. 4%, EM值提升6%。”
no code implementations • CCL 2022 • Zhiyong Luo, Mingming Zhang, Yujiao Han, Zhilin Zhao
“分词是中文信息处理的基础任务之一。目前全监督中文分词技术已相对成熟并在通用领域取得较好效果, 但全监督方法存在依赖大规模标注语料且领域迁移能力差的问题, 特别是跨领域未登录词识别性能不佳。为缓解上述问题, 本文提出了一种充分利用相对易得的目标领域无标注文本、实现跨领域迁移的半监督中文分词框架;并设计实现了基于词记忆网络和序列条件熵的半监督权杒杆中文分词模型。实验结果表明本该模型在多个领域数据集上杆札值和杒杏杏杖值分别取得最高朲. 朳朵朥和朱朲. 朱朲朥的提升, 并在多个数据集上成为当前好结果。”