文档摘要可以通过源文档或中的文本提取来完成,您可以使用学习算法来破译文档传达的内容,然后生成使用语言生成技术的摘要(就像人类一样)。
后一种方法是否有算法或现有的研究工作?总的来说,有哪些好的资源可以学习文档摘要技术?
答案 0 :(得分:4)
您正在寻找的主题在计算机科学界称为Automatic Summarization。
自动摘要是使用计算机程序缩小文本文档以创建保留原始文档最重要点的摘要的过程。
自动摘要的方法包括基于提取,基于抽象,基于最大熵和辅助的摘要。
这是一篇关于这个主题的好survey论文。您可能还想看看另外两篇论文:1和2。
希望它有所帮助。
答案 1 :(得分:2)
自动文本摘要通常有两种类型:抽象和抽取。抽象方法比Extractive有点复杂。在第一个中,提取了重要的特征,来自句子的关键信息。使用自然语言生成技术,使用这些特征生成新的句子。
然而,在后面的方法中,所有句子都使用词汇排名,词汇链等方法进行排序。类似的句子使用余弦相似度,模糊匹配等方法进行聚类。群集中最重要的句子用于生成给定文件的摘要。
从各种来源汇编的一些现有的自动文档文本摘要工作和技术: