Question

是否有一种干净的方法来抓取总结该链接的给定链接的前几行？我已经看到这在一些在线书签应用程序中完成，但不清楚它们是如何实现的。例如，如果我提供this链接，我应该能够获得大致类似的摘要：

我承认，我被吓倒了 MapReduce的。我试过读解释它，但即使是精彩的Joel Spolsky离开了我挠我的头。所以我继续前进试图建立体面的管道处理大量数据

乍一看并没有什么复杂的事情，但抓住这些是具有挑战性的部分。只是实际帖子的前几行应该没问题。我是否应该使用一种原始的方法来抓取整个html并解析元标记或类似的东西（显然并且遗憾的是不能推广到那里的每个链接）或者是否有更聪明的方法来实现这一点？有什么建议吗？

更新

我刚发现InstaPaper这样做但不确定是从RSS Feed获取信息还是其他方式。

Answer 1

首先，我建议您使用PHP DOM Parser Class，这样可以更轻松地获取所需的标记内容。

// Get HTML from URL or file
$html = file_get_html('http://www.google.com/');

// Find all paragraphs 
$paragraphs = $html->find('p')

//echo the first paragraph
echo $paragraphs[0];

问题是很多网站都有糟糕的html结构，有些是建在桌面上的，关键是你决定用什么标签来考虑网站的描述。我会尝试获取元描述标记，如果这个标记不存在，则查找第一段。

Answer 2

你应该从元描述标签中拉出来。大多数博客平台都会填充用户/系统提供的帖子摘录，就像很多CMS平台一样。然后，如果该元标记不存在，我将回到标题或选择适当深度的段落。

摘要网页的简短摘录？

2 个答案: