我有一个问题,可能是它的奇怪,但想知道它,
我尝试通过scrapy访问带有URl www.facebook.com
的facebook。我在start_url中给了它。运行后,我得到了http://m.facebook.com/?refsrc=http%3A%2F%2Fwww.facebook.com%2F&_rdr
的响应,当我们在浏览器中打开此URL时,我可以预期这是Facebook的移动视图。那么为什么响应是移动视图而不是我们在桌面上打开时能够看到的一般视图。
提前致谢...................
答案 0 :(得分:0)
有一个全球设置:USER_AGENT
更新:
你知道,也许处理移动版本毕竟是一个优势。当没有javascript可以执行时,其他网站将浏览器重定向到其他页面:
<noscript> <meta http-equiv="refresh" content="0; URL=/homedepot?_fb_noscript=1" /> </noscript>
处理网站的no js版本或移动版本意味着页面的大小更少,页面上的附加信息更少 - 因此html不会随着时间的推移而发生太大变化,并且您的xpath查询仍然有效。
在这种情况下,只需在Firefox中禁用JS或在其中设置不同的User-Agent即可获得scrapy获取的相同页面。以下是有关如何使用Firefox测试scrapy的更多提示:Using Firefox for scraping