+ NLP的问题解答中的问题生成

时间:2019-11-11 12:54:06

标签: python machine-learning nlp question-answering

我有一个数据集(大约3K至4K)excel文件,每个文件都包含大约12K记录,这些记录是常见问题解答,电子邮件会话,博客评论,聊天等的组合。

最好的部分是,它有2列,一列用于问题,另一列用于答案

来自excel-的一个示例记录(注意-不能公开客户数据,因此仅创建一个记录来解释这种情况。)

例如 样本问题-What are IIT colleges in India?

示例答案-The Indian Institutes of Technology (IITs) are autonomous public institutes of higher education, located in India. They are governed by the Institutes of Technology Act, 1961 which has declared them as institutions of national importance and lays down their powers, duties, and framework for governance. The Institutes of Technology Act, 1961 lists twenty-three institutes.Each IIT is autonomous, linked to the others through a common council (IIT Council), which oversees their administration. The Minister of Human Resource Development is the ex officio Chairperson of the IIT Council. As of 2018, the total number of seats for undergraduate programs in all IITs is 11,279.

客户的要求是-

  

从(样本答案上方)段落中生成尽可能多的简单问题及其答案,并将其附加到同一Excel中。

(然后,他将把每个excel馈入其生成聊天机器人故事的工具,从而进一步处理每个excel)。

例如

  • 个人所得税是自治的吗? (答案:Yes
  • 什么是IIT的管理者? (答案:The Institutes of Technology Act, 1961
  • IIT位于哪个国家? (答案:India
  • 1961年的《技术学院法》列出了哪些研究所? (答案:twenty-three) 等

答案生成我可以使用AllenAI来完成,但不确定如何生成问题? 我尝试了repo,但由于我是NLP或ML的新手,所以它看起来不完整,需要更多的努力,所以不知道如何进行这些更改。

在回答问题方面是否有帮助?

我可以在现有语言模型(例如spacy模型)之上创建任何模型以生成实体,然后生成问题吗?

0 个答案:

没有答案