基于概念的文本摘要(抽象)

时间:2015-07-07 12:40:27

标签: machine-learning nlp summarization

我正在寻找一个基于句子的概念或含义进行AI文本摘要的引擎,我查看了开源项目,如(姜,释义,王牌),但他们不做这项工作。 他们的工作方式是他们试图找到每个单词的同义词并用当前单词替换,这样他们就会生成很多句子的替代词,但大多数时候意义都是错误的。

我曾与斯坦福大学的引擎合作,为一篇文章做了类似亮点的事情,并在此基础上提取了最重要的句子,但这仍然不是抽象,它的提取。

我正在寻找的引擎随着时间的推移而学习并且每次总结后结果都会有所改善。

请在这里帮忙,非常感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

我不知道任何符合您对抽象和意义的要求的开源项目。

但我有一个想法如何构建这样的引擎以及如何训练它。

用几句话来说,我认为我们都会记住一些类似贝叶斯网络的结构,不仅可以帮助我们对某些数据进行分类,还可以形成关于文本或信息的抽象含义。

由于不可能从我们的脑海中提取所有抽象类别结构,我认为最好建立一种机制,允许逐步重建它。

<强>抽象

所提出的解决方案的关键思想在于使用从自动计算机系统更容易操作的方法来提取会话的含义。这将允许与另一个人建立真实对话的错觉。

建议的模型支持两个抽象级别:

首先是,较不复杂的等级包括识别单词组或单个单词作为与类别,实例或实例属性相关的组。

实例意味着从真实或抽象主题,对象,动作,属性或其他类型的实例的一般类别进行实例化。作为一个例子 - 两个或多个主题之间的具体关系:雇主和雇员之间的具体关系,具体城市和所在国家等等。 这种基本的意义识别方法允许我们创建具有维持对话能力的机器人。这种能力基于对意义的基本要素的识别:类别,实例和实例属性。

第二,这是一种基于场景识别的最复杂的方法,它将它们存储到具有实例/类别的对话上下文中,并使用它们来完成一些公认的场景。

相关场景将用于完成对话的下一条消息,以及一些场景可用于生成下一条消息或通过使用条件和使用来自上下文的含义元素来识别含义元素。

类似的东西:

enter image description here

应手动输入基本分类,并在将来修正/增加教师。

会话中的句子和句子中的句子中的单词可以从上下文填充

会话场景/类别可以通过以前识别的实例或未来会话中描述的实例(自学)来实现

图1 - 单词检测/分类基本上是流程视觉

图2 - 一般系统视觉大图片视图

图3 - 意思是元素分类

图4 - 基本上类别结构可能就是那样