我运营一个允许用户撰写博客文章的网站,我真的想总结一下所写的内容并用它来填充<meta name="description".../>
- 标签。
我可以采用哪些方法自动汇总/描述用户生成内容的内容?
是否有任何(最好是免费的)方法解决了这个问题?
(我见过其他网站只是复制了前100个左右的单词,但这让我觉得它不是一个次优解决方案。)
答案 0 :(得分:5)
将摘要的任务视为对文档中“选择最重要的句子”的挑战。
H.P.的The Automatic Creation of Literature Abstracts中描述的方法。 Luhn(1958)描述了一种实际上表现良好的天真方法。试着试一试。
如果您的网站采用Python编码,则使用NLTK(自然语言工具包)编写此算法是一项有趣的任务。
答案 1 :(得分:4)
让它可预测。
从用户的角度来看,简单地使用第一段并不坏。 在某些情况下,使用任何自动化都必然会失败。所以我建议显示 第一段(可能在某些时候截断)作为摘要,并提供通过可选字段覆盖它的能力。
答案 2 :(得分:1)
我可能会尝试使用机械土耳其人或任何其他众包选项。
答案 3 :(得分:1)
要检查的另一个项目,SourceForge项目AutoSummary Semantic Analysis Engine
答案 4 :(得分:1)
答案 5 :(得分:1)
Yahoo有一个免费的API: http://developer.yahoo.com/search/content/V1/termExtraction.html
答案 6 :(得分:1)
Apple的patent 6424362 - Auto-summary of document content包含可能有用的示例代码......
答案 7 :(得分:0)
这与人工智能接壤,因此不会有“简单”的解决方案,但有些产品可以解决这个问题。
答案 8 :(得分:0)
名词短语通常往往是句子的重要元素。挑选具有高密度名词短语的句子可以产生良好的总结。你可以使用POS标签获得名词短语。
对于一个好的总结,最好是一个有意义的句子。读一个破碎的句子有点不耐烦。
答案 9 :(得分:0)
或者,当作者发布文章时,作者可以突出显示可以在描述中使用的关键字,然后可以将这些关键字自动放入元描述标签中。