有没有办法生成Q& A对的一句话摘要?
例如,提供:
Q: What is the color of the car?
A: Red
我想生成一个摘要为
The color of the car is red
或者,给定
Q: Are you a man?
A: Yes
到
Yes, I am a man.
解释了问题和答案。
最合理的方法是什么?
答案 0 :(得分:2)
我不得不一直致力于解决相反的问题,即用维基百科文章中的句子生成问题。
我使用Stanford Parser从训练数据集中的所有可能句子中生成解析树。
e.g。
我基本上在1000多个句子中收集了这些模式,对每个模式的常见程度进行了排序,然后使用了如何最好地修改这个解析树以转换成不同Wh-question中的每个句子(What,Who,When ,在哪里,为什么等)
你可以轻松地做一些非常相似的事情。研究所有训练数据的解析树,并找出可以提取的模式以完成工作。在许多情况下,只是用答案替换问题中的Wh单词会给你一个有效但有点笨拙的短语句子。 例如“红色是汽车的颜色。”
在“你是男人吗?”这类问题的情况下。 (即主要动词类似于'是','可以','应该'等等),交换前2个单词通常会成功 - “你是男人?”
答案 1 :(得分:1)
我不知道明确处理您的要求的任何NLP任务。
从广义上讲,有两种问题。期望作为答案的问题,例如定义或解释排序:What is Ebola Fever
。第二种类型填写空白,在文献中称为Factoid Questions
,例如What is the height of Mt. Everest?
。目前尚不清楚您想要总结什么样的问题。我假设你对factoid问题感兴趣,因为你的例子只涉及它们。
Question Answering
的任务中出现了一个非常类似的问题。此任务的第一个阶段之一是生成查询。在论文中:An Exploration of the Principles Underlying
Redundancy-Based Factoid Question
Answering; Jimmy Lin 2007,作者声称通过将查询(请参阅第4.1节)重新形成更有可能出现在自由文本中的形式,可以实现更好的性能。让我复制一下文中讨论的一些例子。
1. What year did Alaska became a state?
2. Alaska became a state ?x
1. Who was the first person to run the miles in less than four minutes?
2. The first person to run the miles in less than four minutes was ?x
在上面的示例中,1
中的查询被重新表述为2
。正如您可能已经观察到的那样,?x
是应该由答案填充的空白。这一重新制定是通过十几个手写规则进行的,并且内置于论文中讨论的软件工具中:ARANEA
。你所要做的就是找到工具并使用它,这篇论文已经十年了,我不能向你保证:)
希望这会有所帮助。