如何自动摘录用户生成的内容?

时间:2009-09-23 21:35:13

标签: artificial-intelligence nlp user-generated-content

我运营一个允许用户撰写博客文章的网站,我真的想总结一下所写的内容并用它来填充<meta name="description".../> - 标签。

我可以采用哪些方法自动汇总/描述用户生成内容的内容?
是否有任何(最好是免费的)方法解决了这个问题?

(我见过其他网站只是复制了前100个左右的单词,但这让我觉得它不是一个次优解决方案。)

10 个答案:

答案 0 :(得分:5)

将摘要的任务视为对文档中“选择最重要的句子”的挑战。

H.P.的The Automatic Creation of Literature Abstracts中描述的方法。 Luhn(1958)描述了一种实际上表现良好的天真方法。试着试一试。

如果您的网站采用Python编码,则使用NLTK(自然语言工具包)编写此算法是一项有趣的任务。

答案 1 :(得分:4)

让它可预测。

从用户的角度来看,简单地使用第一段并不坏。 在某些情况下,使用任何自动化都必然会失败。所以我建议显示 第一段(可能在某些时候截断)作为摘要,并提供通过可选字段覆盖它的能力。

答案 2 :(得分:1)

我可能会尝试使用机械土耳其人或任何其他众包选项。

答案 3 :(得分:1)

要检查的另一个项目,SourceForge项目AutoSummary Semantic Analysis Engine

答案 4 :(得分:1)

答案 5 :(得分:1)

答案 6 :(得分:1)

Apple的patent 6424362 - Auto-summary of document content包含可能有用的示例代码......

答案 7 :(得分:0)

这与人工智能接壤,因此不会有“简单”的解决方案,但有些产品可以解决这个问题。

结帐Copernic Summarizer

答案 8 :(得分:0)

名词短语通常往往是句子的重要元素。挑选具有高密度名词短语的句子可以产生良好的总结。你可以使用POS标签获得名词短语。

对于一个好的总结,最好是一个有意义的句子。读一个破碎的句子有点不耐烦。

答案 9 :(得分:0)

或者,当作者发布文章时,作者可以突出显示可以在描述中使用的关键字,然后可以将这些关键字自动放入元描述标签中。