Question

我是网络爬行新手，感谢您提供帮助。我需要执行的任务是从谷歌搜索获取完整返回的HTTP响应。在Google上使用搜索关键字在浏览器中进行搜索时，在返回的页面中有一个部分：

与XXXX相关的搜索（其中XXXX是搜索到的字词）

我需要提取网页的这一部分。根据我的研究，目前谷歌抓取的大部分软件包都无法提取这部分信息。我尝试使用urllib2，代码如下：

import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs

我收到大量文本，看起来像是合法的HTTP响应，但在文本中，没有任何与我搜索到的密钥相关的内容＆＃34;国际商业机器＆＃34;。我知道Google可能会检测到这不是来自实际浏览器的请求因此隐藏此信息。我是否知道是否有任何方法可以绕过这个并获得相关搜索＆＃34;谷歌结果部分？谢谢。

Answer 1

<@> @anonyXmous指出。这里引用的有用帖子是：

Google Search Web Scraping with Python

带

from requests import get
keyword = "internation business machine"
url = "https://google.com/search?q="+keyword
raw = get(url).text
print raw

我能够在＆＃34; raw＆＃34;

中获得所需的文字

如何从Google搜索结果页面获取完整的HTML内容

1 个答案: