小说综述算法:监督学习

时间:2016-07-01 07:17:36

标签: machine-learning nlp artificial-intelligence deep-learning supervised-learning

我想写一个学习算法,可以自动创建文章摘要。

例如,PDF格式中有一些小说小说(一类将其视为过滤器)。我想创建一个自动创建摘要的过程。 我们可以提供一些样本数据,以便在监督学习方法中实施。 请建议我如何正确实施。

我是初学者&我正在追求Andrew Ng课程,并了解一些常见的算法(线性注册,逻辑,神经网络)+ Udacity统计课程,并准备深入研究NLP,深度学习等,但动机是解决这个问题。 :) 提前致谢

1 个答案:

答案 0 :(得分:3)

关键字为Automatic Summarization

通常,自动汇总有两种方法: 提取 抽象

  • 抽取方法的工作原理是选择原始文本中现有单词,短语或句子的子集,以形成摘要。
  • 抽象方法构建内部语义表示,然后使用自然语言生成技术创建一个更接近人类可能生成的摘要。

抽象摘要要困难得多。一个有趣的方法在A Neural Attention Model for Abstractive Sentence Summarization由Alexander M. Rush,Sumit Chopra,Jason Weston(基于论文here的源代码)中描述。

Word(AutoSummary Tool)中使用了“简单”方法:

  

AutoSummarize通过分析文档并为每个句子分配分数来确定关键点。包含文档中经常使用的单词的句子得分较高。然后,您可以选择要在摘要中显示得分最高的句子的百分比。

     

您可以选择是否突出显示文档中的关键点,在文档顶部插入执行摘要或摘要,创建新文档并将摘要放在那里,或隐藏除摘要之外的所有内容。

     

如果您选择突出显示关键点或隐藏除摘要之外的所有内容,则可以在仅显示文档中的关键点(文档的其余部分已隐藏)之间切换,并在文档中突出显示它们。在阅读时,您还可以随时更改详细程度。

无论如何,自动数据(文本)摘要是机器学习/数据挖掘的一个活跃领域,有许多正在进行的研究。你应该开始阅读一些好的概述: