我想写一个学习算法,可以自动创建文章摘要。
例如,PDF格式中有一些小说小说(一类将其视为过滤器)。我想创建一个自动创建摘要的过程。 我们可以提供一些样本数据,以便在监督学习方法中实施。 请建议我如何正确实施。我是初学者&我正在追求Andrew Ng课程,并了解一些常见的算法(线性注册,逻辑,神经网络)+ Udacity统计课程,并准备深入研究NLP,深度学习等,但动机是解决这个问题。 :) 提前致谢
答案 0 :(得分:3)
通常,自动汇总有两种方法: 提取 和 抽象 。
抽象摘要要困难得多。一个有趣的方法在A Neural Attention Model for Abstractive Sentence Summarization由Alexander M. Rush,Sumit Chopra,Jason Weston(基于论文here的源代码)中描述。
Word(AutoSummary Tool)中使用了“简单”方法:
AutoSummarize通过分析文档并为每个句子分配分数来确定关键点。包含文档中经常使用的单词的句子得分较高。然后,您可以选择要在摘要中显示得分最高的句子的百分比。
您可以选择是否突出显示文档中的关键点,在文档顶部插入执行摘要或摘要,创建新文档并将摘要放在那里,或隐藏除摘要之外的所有内容。
如果您选择突出显示关键点或隐藏除摘要之外的所有内容,则可以在仅显示文档中的关键点(文档的其余部分已隐藏)之间切换,并在文档中突出显示它们。在阅读时,您还可以随时更改详细程度。
无论如何,自动数据(文本)摘要是机器学习/数据挖掘的一个活跃领域,有许多正在进行的研究。你应该开始阅读一些好的概述: