根据预先存在的主题自动生成摘要?

时间:2016-05-05 03:41:24

标签: algorithm machine-learning nlp artificial-intelligence information-extraction

我想在文件中做以下事项:

  • 使用预先存在的主题创建摘要

在第一个场景中,文档以统一的方式整齐地组织。 例如,大多数维基百科电影文章都有以下子主题(例如:https://en.wikipedia.org/wiki/Between_Us_(2012_film)

  • 剧情
  • 角色
  • 接收
  • 其他可选主题

在第二种情况中,文档包含与上述相同的信息;但是,文件没有干净的组织。文档可以使用相同或相似的语言,但组织方式不同。

在这两种情况下,鉴于子主题,我想从文档中提取此信息。

我可以使用任何机器学习/自然语言处理策略/算法吗?算法组合很好。主要工作的算法也很好。

更新:看起来我想要的是信息提取

2 个答案:

答案 0 :(得分:1)

可能的方法是将这些主题分配给每个部分的句子[1]。由于您似乎有注释数据,您可以使用它来训练“句子主题/部分模型”。根据[1],即使是多项式的朴素贝叶斯分类器也能很好地完成这项工作。

关于摘要方面,除非你有训练数据,否则我会研究提取摘要技术[2] - 也就是说,从摘要中选择现有的最佳句子。 [2] LexRank的工作有一些你可以使用的野外实现。如果您有要学习的摘要,您可以查看抽象技术,这些技术可以从现有句子中生成新句子[3]。如果你检查[4],[3]有一些样本实现浮动。

[1] http://bioinformatics.oxfordjournals.org/content/25/23/3174.full

[2] http://jair.org/papers/paper1523.html

[3] http://arxiv.org/abs/1509.00685

[4] http://gitxiv.com/

答案 1 :(得分:0)

我能想到的最简单的方法是将其作为序列分类问题,其中类是子主题。给定句子(或者可能是段落),分类器输出子主题概率。训练LSTM分类器应该是可能的,因为你有很多标记数据(句子,子主题)

这种方法的问题可能是最终的输出是非连贯的。使用段落可以帮助,或者可以调整先前的分类概率。