缩短文本,只保留重要句子

时间:2009-04-13 00:33:08

标签: algorithm nlp semantics

德国网站nandoo.net提供缩短新闻文章的可能性。如果使用滑块更改百分比值,则文本会更改,并且会遗漏一些句子。

你可以在这里看到:

  

http://www.nandoo.net/read/article/299925/

新闻文章位于左侧,标签已标记。滑块位于第二列的顶部。将滑块向左移动的次数越多,文本就越短。

你怎么能提供这样的东西?是否有任何算法可用于实现这一目标?

我的想法是他们的算法计算一个句子中的标签和名词的数量。然后省略了标签/名词数量最少的句子。

这可能是真的吗?或者您有其他想法吗?

我希望你能帮助我。提前谢谢!

2 个答案:

答案 0 :(得分:3)

这是计算语言学的热门研究课题。使用贝叶斯过滤的浅层方法不太可能产生完美的结果 - 但无论如何你可能不需要完美的结果。

在CL中,80-20规则很快成为95-5规则,因此如果您对通过浅层方法可以实现的内容感到满意,请跳过此答案。

如果您想了解自己是否可以改善结果,可以尝试寻找更好的资源。您所指的任务在研究社区中称为“文本摘要”,它有自己的web page,这是绝对过时的。 Mani and Maybury (1999)可能是一个很好的概述(我自己没有读过),但也很陈旧。最近有关于这一主题的Martin Hassels dissertation,也非常详尽,包括与语言无关(阅读:统计,即浅层)方法。

与往常一样,Google也可以为您提供帮助。只需搜索text summarization

答案 1 :(得分:2)

通常,您希望保留具有该文章更独特的单词的句子。

也就是说,句子越“通用”,它对这篇特定文章的描述就越少。

执行此操作的常规方法是贝叶斯分析,就像垃圾邮件过滤器一样。首先确定整篇文章中哪些单词出现的次数比您预期的要多,然后找到具有这些单词的句子。