如何从Google搜索结果页面获取完整的HTML内容

时间:2017-04-18 02:52:06

标签: python web-crawler google-search google-crawlers

我是网络爬行新手,感谢您提供帮助。我需要执行的任务是从谷歌搜索获取完整返回的HTTP响应。在Google上使用搜索关键字在浏览器中进行搜索时,在返回的页面中有一个部分:

与XXXX相关的搜索(其中XXXX是搜索到的字词)

我需要提取网页的这一部分。根据我的研究,目前谷歌抓取的大部分软件包都无法提取这部分信息。我尝试使用urllib2,代码如下:

import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs

我收到大量文本,看起来像是合法的HTTP响应,但在文本中,没有任何与我搜索到的密钥相关的内容"国际商业机器"。我知道Google可能会检测到这不是来自实际浏览器的请求因此隐藏此信息。我是否知道是否有任何方法可以绕过这个并获得相关搜索"谷歌结果部分?谢谢。

1 个答案:

答案 0 :(得分:0)

<@> @anonyXmous指出。这里引用的有用帖子是:

Google Search Web Scraping with Python

from requests import get
keyword = "internation business machine"
url = "https://google.com/search?q="+keyword
raw = get(url).text
print raw

我能够在&#34; raw&#34;

中获得所需的文字