no code implementations • CCL 2020 • Bailian Qiu, Mingwen Wang, Maoxi Li, Cong Chen, Fan Xu
机器翻译错误分析旨在找出机器译文中存在的错误, 包括错误类型、错误分布等, 它在机器翻译研究和应用中起着重要作用。该文将人工译后编辑与错误分析结合起来, 对译后编辑操作进行错误标注, 采用自动标注和人工标注相结合的方法, 构建了一个细粒度英汉机器翻译错误分析语料库, 其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。
no code implementations • CCL 2021 • Wei Hu, Maoxi Li, Bailian Qiu, Mingwen Wang
“机器译文自动评价对机器翻译的发展和应用起着重要的促进作用, 它一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间, 结合分层注意力和内部注意力提取源语言句子与机器译文、机器译文与人工参考译文以及源语言句子与人工参考译文之间差异特征, 并将其融入到基于Bi-LSTM神经译文自动评价方法中。在WMT’19译文自动评价数据集上的实验结果表明, 融合XLM词语表示的神经机器译文自动评价方法显著提高了其与人工评价的相关性。”
no code implementations • 14 Apr 2017 • Fan Xu, Shujing Du, Maoxi Li, Mingwen Wang
Chinese discourse coherence modeling remains a challenge taskin Natural Language Processing field. Existing approaches mostlyfocus on the need for feature engineering, whichadoptthe sophisticated features to capture the logic or syntactic or semantic relationships acrosssentences within a text. In this paper, we present an entity-drivenrecursive deep modelfor the Chinese discourse coherence evaluation based on current English discourse coherenceneural network model.
no code implementations • 8 Jan 2017 • Fan Xu, Mingwen Wang, Maoxi Li
Identifying the different varieties of the same language is more challenging than unrelated languages identification.