摘要网页的简短摘录?

时间:2011-01-09 23:38:39

标签: php javascript jquery python

是否有一种干净的方法来抓取总结该链接的给定链接的前几行?我已经看到这在一些在线书签应用程序中完成,但不清楚它们是如何实现的。例如,如果我提供this链接,我应该能够获得大致类似的摘要:

  

我承认,我被吓倒了   MapReduce的。我试过读   解释它,但即使是   精彩的Joel Spolsky离开了我   挠我的头。所以我继续前进   试图建立体面的管道   处理大量数据

乍一看并没有什么复杂的事情,但抓住这些是具有挑战性的部分。只是实际帖子的前几行应该没问题。我是否应该使用一种原始的方法来抓取整个html并解析元标记或类似的东西(显然并且遗憾的是不能推广到那里的每个链接)或者是否有更聪明的方法来实现这一点?有什么建议吗?

更新

我刚发现InstaPaper这样做但不确定是从RSS Feed获取信息还是其他方式。

2 个答案:

答案 0 :(得分:0)

首先,我建议您使用PHP DOM Parser Class,这样可以更轻松地获取所需的标记内容。

// Get HTML from URL or file
$html = file_get_html('http://www.google.com/');

// Find all paragraphs 
$paragraphs = $html->find('p')

//echo the first paragraph
echo $paragraphs[0];

问题是很多网站都有糟糕的html结构,有些是建在桌面上的,关键是你决定用什么标签来考虑网站的描述。我会尝试获取元描述标记,如果这个标记不存在,则查找第一段。

答案 1 :(得分:0)

你应该从元描述标签中拉出来。大多数博客平台都会填充用户/系统提供的帖子摘录,就像很多CMS平台一样。然后,如果该元标记不存在,我将回到标题或选择适当深度的段落。