是否有一种干净的方法来抓取总结该链接的给定链接的前几行?我已经看到这在一些在线书签应用程序中完成,但不清楚它们是如何实现的。例如,如果我提供this链接,我应该能够获得大致类似的摘要:
我承认,我被吓倒了 MapReduce的。我试过读 解释它,但即使是 精彩的Joel Spolsky离开了我 挠我的头。所以我继续前进 试图建立体面的管道 处理大量数据
乍一看并没有什么复杂的事情,但抓住这些是具有挑战性的部分。只是实际帖子的前几行应该没问题。我是否应该使用一种原始的方法来抓取整个html并解析元标记或类似的东西(显然并且遗憾的是不能推广到那里的每个链接)或者是否有更聪明的方法来实现这一点?有什么建议吗?
更新
我刚发现InstaPaper这样做但不确定是从RSS Feed获取信息还是其他方式。
答案 0 :(得分:0)
首先,我建议您使用PHP DOM Parser Class,这样可以更轻松地获取所需的标记内容。
// Get HTML from URL or file
$html = file_get_html('http://www.google.com/');
// Find all paragraphs
$paragraphs = $html->find('p')
//echo the first paragraph
echo $paragraphs[0];
问题是很多网站都有糟糕的html结构,有些是建在桌面上的,关键是你决定用什么标签来考虑网站的描述。我会尝试获取元描述标记,如果这个标记不存在,则查找第一段。
答案 1 :(得分:0)
你应该从元描述标签中拉出来。大多数博客平台都会填充用户/系统提供的帖子摘录,就像很多CMS平台一样。然后,如果该元标记不存在,我将回到标题或选择适当深度的段落。