抓谷歌新闻头条新闻

时间:2014-11-28 23:54:11

标签: python web-scraping google-news

可以按关键字搜索Google新闻,然后搜索范围可以缩小到某个时间段。

我尝试在网站上进行搜索,然后使用结果页面的网址对python中的搜索进行逆向工程:

import urllib2


url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.7058.5.4.0.1.1.0.66.230.4.4.0...0.0...1ac.1.SRcIeXL5d48'

handler = urllib2.urlopen(url)
html = handler.read()

然而,我收到403错误。此方法适用于其他网站,例如bbc.co.uk.所以很明显谷歌不希望我用python抓住网站。

所以我有两个问题: 1)是否有可能绕过谷歌放置的这种限制?如果是这样,怎么样? 2)是否有任何其他可擦除的新闻网站,我可以在一段时间内搜索关键字的新闻。

对于其中一个选项,我不介意使用付费服务。所以也欢迎这样的建议。

提前谢谢, ķ。

1 个答案:

答案 0 :(得分:2)

尝试设置User-Agent

req = urllib2.Request(path)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3 Gecko/2008092417 Firefox/3.0.3')
response = urllib2.urlopen(req)