德国网站nandoo.net提供缩短新闻文章的可能性。如果使用滑块更改百分比值,则文本会更改,并且会遗漏一些句子。
你可以在这里看到:
新闻文章位于左侧,标签已标记。滑块位于第二列的顶部。将滑块向左移动的次数越多,文本就越短。
你怎么能提供这样的东西?是否有任何算法可用于实现这一目标?
我的想法是他们的算法计算一个句子中的标签和名词的数量。然后省略了标签/名词数量最少的句子。
这可能是真的吗?或者您有其他想法吗?
我希望你能帮助我。提前谢谢!
答案 0 :(得分:3)
这是计算语言学的热门研究课题。使用贝叶斯过滤的浅层方法不太可能产生完美的结果 - 但无论如何你可能不需要完美的结果。
在CL中,80-20规则很快成为95-5规则,因此如果您对通过浅层方法可以实现的内容感到满意,请跳过此答案。
如果您想了解自己是否可以改善结果,可以尝试寻找更好的资源。您所指的任务在研究社区中称为“文本摘要”,它有自己的web page,这是绝对过时的。 Mani and Maybury (1999)可能是一个很好的概述(我自己没有读过),但也很陈旧。最近有关于这一主题的Martin Hassels dissertation,也非常详尽,包括与语言无关(阅读:统计,即浅层)方法。
与往常一样,Google也可以为您提供帮助。只需搜索text summarization。
答案 1 :(得分:2)
通常,您希望保留具有该文章更独特的单词的句子。
也就是说,句子越“通用”,它对这篇特定文章的描述就越少。
执行此操作的常规方法是贝叶斯分析,就像垃圾邮件过滤器一样。首先确定整篇文章中哪些单词出现的次数比您预期的要多,然后找到具有这些单词的句子。