应用错误收集

通常，自动汇总有两种方法：提取和抽象。

抽取方法的工作原理是选择原始文本中现有单词，短语或句子的子集，以形成摘要。
抽象方法构建内部语义表示，然后使用自然语言生成技术创建一个更接近人类可能生成的摘要。

抽象摘要要困难得多。一个有趣的方法在A Neural Attention Model for Abstractive Sentence Summarization由Alexander M. Rush，Sumit Chopra，Jason Weston（基于论文here的源代码）中描述。

Word（AutoSummary Tool）中使用了“简单”方法：

AutoSummarize通过分析文档并为每个句子分配分数来确定关键点。包含文档中经常使用的单词的句子得分较高。然后，您可以选择要在摘要中显示得分最高的句子的百分比。

您可以选择是否突出显示文档中的关键点，在文档顶部插入执行摘要或摘要，创建新文档并将摘要放在那里，或隐藏除摘要之外的所有内容。

如果您选择突出显示关键点或隐藏除摘要之外的所有内容，则可以在仅显示文档中的关键点（文档的其余部分已隐藏）之间切换，并在文档中突出显示它们。在阅读时，您还可以随时更改详细程度。

无论如何，自动数据（文本）摘要是机器学习/数据挖掘的一个活跃领域，有许多正在进行的研究。你应该开始阅读一些好的概述：

Summarization evaluation: an overview由Inderjeet Mani撰写。
A Survey on Automatic Text Summarization Martins（强调采用统计方法进行汇总的抽取方法）。

小说综述算法：监督学习

1 个答案: