使用PHP抓取网站

时间:2011-03-08 04:24:03

标签: php url web-crawler

我已经尝试了一堆技术来抓取这个网址(见下文),并且出于某种原因,标题回归不正确。如果我用firebug查看页面的来源,我可以看到正确的标题标签,但是,如果我查看页面源它是不同的。

使用几种PHP技术,我得到相同的结果。 Digg能够抓取页面并解析正确的标题。

以下是链接:http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

正确的标题是“如何使您的iPhone(或其他iOS设备)更像Android” 解析的标题是“Lifehacker,完成任务的提示和下载”

这是正常的吗?他们是怎么做到的?有没有办法获得正确的标题?

2 个答案:

答案 0 :(得分:1)

那是因为当您使用PHP请求它(没有任何JS支持)时,您将获得lifehacker的主页 - 这是lifehacker.com。

Lifehacker最近切换了他们的CMS,以便所有请求都转到初始页面,然后主页中的JS脚本读取hashbang之后的所有内容,以确定需要提供哪个页面。您需要修改程序以将此考虑在内

修改 对这些链接有一个勇气

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

http://www.tbray.org/ongoing/When/201x/2011/02/09/Hash-Blecch

答案 1 :(得分:0)