基于文档重要性的句子排名算法

时间:2014-09-01 17:48:05

标签: algorithm machine-learning nlp graph-algorithm

鉴于任何文档,根据文档的重要性,有哪些算法可以对每个句子进行排名?一个重要的句子将是一个重要的句子,其删除大大改变了文档传达的意义,一个不重要的句子的删除不会对文档造成很大影响(或根本不会)

算法应该独立于域 - 它可以是新闻文章,期刊出版物,电影评论等。

如果没有这样的具体算法,那么为了能够提出这样的算法,应该学习哪些关键概念?一个人应该从哪里开始解决这个问题?

到目前为止,我已经阅读了这两篇研究论文:

Graph Based ranking

Word clusters based ranking

但我希望从问题的根源开始,并可能尝试找到问题的新解决方案。因此,我想探索更多算法并理解基本概念,以便更好地理解如何处理它。

2 个答案:

答案 0 :(得分:3)

用于此目的的众所周知的算法是LexRank。虽然它有点陈旧,但它被引用到目前为止并被认为是一个强大的基线。

答案 1 :(得分:2)

查看您所发现的论文的参考书目,并通过所引用作品的参考书目向后工作。这应该引导您了解基本概念。无论如何,在您完成文献综述之前,您无法知道您提出的解决方案是否是新的。 (我之前发表的是评论;经过反思,我相信这是对问题的回应。)

编辑添加:您可以通过查看CiteSeer(http://citeseerx.ist.psu.edu),Google学术搜索,科学引文索引等找到更新的作品,看看谁引用了您已经了解的论文。然后,您可以按照他们的参考书目等,直到您确定已经涵盖了有关您主题的工作。这里有一套关于进行文献综述的提示:http://www.writing.utoronto.ca/advice/specific-types-of-writing/literature-review

您可能还想在https://academia.stackexchange.com/

上发布此问题的修订版