应用错误收集

使用PHP抓取网站

时间：2011-03-08 04:24:03

标签： php url web-crawler

我已经尝试了一堆技术来抓取这个网址（见下文），并且出于某种原因，标题回归不正确。如果我用firebug查看页面的来源，我可以看到正确的标题标签，但是，如果我查看页面源它是不同的。

使用几种PHP技术，我得到相同的结果。 Digg能够抓取页面并解析正确的标题。

以下是链接：http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

正确的标题是“如何使您的iPhone（或其他iOS设备）更像Android” 解析的标题是“Lifehacker，完成任务的提示和下载”

这是正常的吗？他们是怎么做到的？有没有办法获得正确的标题？

2 个答案:

答案 0 :(得分：1)

那是因为当您使用PHP请求它（没有任何JS支持）时，您将获得lifehacker的主页 - 这是lifehacker.com。

Lifehacker最近切换了他们的CMS，以便所有请求都转到初始页面，然后主页中的JS脚本读取hashbang之后的所有内容，以确定需要提供哪个页面。您需要修改程序以将此考虑在内

修改对这些链接有一个勇气

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

http://www.tbray.org/ongoing/When/201x/2011/02/09/Hash-Blecch

答案 1 :(得分：0)

找到答案：

http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

成为：

http://lifehacker.com/?_escaped_fragment_=5772420/how-to-make-ios-more-like-android