no code implementations • CCL 2021 • Yuan Sun, Sisi Liu, Chaofan Chen, Zhengcuo Dan, Xiaobing Zhao
“机器阅读理解是通过算法让机器根据给定的上下文回答问题, 从而测试机器理解自然语言的程度。其中, 数据集的构建是机器阅读理解的主要任务。目前, 相关算法模型在大多数流行的英语数据集上都取得了显著的成绩, 甚至超过了人类的表现。但对于低资源语言, 由于缺乏相应的数据集, 机器阅读理解研究还处于起步阶段。本文以藏语为例, 人工构建了藏语机器阅读理解数据集(TibetanQA), 其中包含20000个问题答案对和1513篇文章。本数据集的文章均来自云藏网, 涵盖了自然、文化和教育等12个领域的知识, 问题形式多样且具有一定的难度。另外, 该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面, 均采用严格的流程以确保数据的质量, 同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后, 本文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现, 其结果难以媲美人类, 这表明在藏语机器阅读理解任务上还需要更进一步的探索。”
no code implementations • COLING 2022 • Yuan Sun, Sisi Liu, Zhengcuo Dan, Xiaobing Zhao
Then, the types predicted by the question type classifier are fed into the question generator.