应用错误收集

时间：2020-09-30 09:15:53

标签： nlp dataset question-answering

我正在建造质量检查机器。我有一个问题，一个问题可能有多个答案，而答案在上下文中位于不同的位置。例如：

问题：克里斯必须做什么？

上下文：....克里斯必须洗碗....（更多文字）....克里斯必须做功课....

正确答案：

当我得到一个问题的答案时，我使用聚类算法对重复数据进行重复数据删除并获得“单独的”答案。因此，我需要一个具有一对1问题的数据集-像上面这样的许多答案来评估我的聚类算法和句子嵌入模型。

是否有公共数据集支持一对一个问题-多个正确答案（不重复）？我尝试了MS MARCO，但该数据集中的大多数答案都是重复的。

答案 0 :(得分：0)

Muc2004 是一个文档级的事件抽取数据集，对于每个事件角色，都有多个答案。例如，

问题：攻击的受害者是谁？

背景：......因为卡洛斯·瓦伦西亚·加西亚的死刑判决是最后一晚......（更多文字）......玛丽亚·埃琳娜·迪亚兹的暗杀......

正确答案：

答案 1 :(得分：0)

我正在寻找类似的问题解答技术或具有多个非冗余答案的数据集。

然而，这篇论文将 QA 的问题作为一个句子分类任务提出，其中的任务实际上是判断上下文中的每个句子是否回答了查询。

现在，如果您的多个答案不是一个句子而是只是短语，我不建议您这样做。