如何使用Perl创建网站摘要?

时间:2009-08-14 19:52:13

标签: perl

当您在Facebook或Digg上分享内容时,会生成一些页面摘要。我如何在Perl中执行此操作?有什么算法?

例如:

如果我去Facebook并尝试将此问题作为链接分享: How can I create a website summary with Perl?

它检索“Facebook / Digg获取网站摘要? - Stack Overflow”作为标题(这只是页面的标题)和[...不完整的问题?]

4 个答案:

答案 0 :(得分:4)

CPAN是你的朋友。

一些看起来很有希望的模块:

答案 1 :(得分:2)

假设您的意思是分享链接......

通常摘要由提交URL的用户编写。如果您必须自动编写摘要,可以通过以下方式实现:

  • 使用文档正文的前100个字符(本身并不容易)
  • 使用描述或关键字等元数据(通常为空或垃圾邮件)
  • recreating Google snippets相关的上下文相关摘要(抱歉,它很简单)
  • 使用类似Yahoo Keyword Extractor API或您自己的关键字密度函数
  • 的文档中的标签/关键字

您最好的选择是询问用户!

希望有所帮助:)

答案 2 :(得分:1)

基本上你想刮掉网址并找到可能是第一个< div>的“最重要的段落”。或者< p>第一个< h2>之后的元素或者< h1>,具体取决于页面的布局。

答案 3 :(得分:1)

您可以检查并查看页面上是否有元描述,但这会让您受到编写元描述的人的支配。