我是网络爬行新手,感谢您提供帮助。我需要执行的任务是从谷歌搜索获取完整返回的HTTP响应。在Google上使用搜索关键字在浏览器中进行搜索时,在返回的页面中有一个部分:
与XXXX相关的搜索(其中XXXX是搜索到的字词)
我需要提取网页的这一部分。根据我的研究,目前谷歌抓取的大部分软件包都无法提取这部分信息。我尝试使用urllib2,代码如下:
import urllib2
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187"
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'})
con = urllib2.urlopen( req )
strs = con.read()
print strs
我收到大量文本,看起来像是合法的HTTP响应,但在文本中,没有任何与我搜索到的密钥相关的内容"国际商业机器"。我知道Google可能会检测到这不是来自实际浏览器的请求因此隐藏此信息。我是否知道是否有任何方法可以绕过这个并获得相关搜索"谷歌结果部分?谢谢。
答案 0 :(得分:0)
Google Search Web Scraping with Python
带
from requests import get
keyword = "internation business machine"
url = "https://google.com/search?q="+keyword
raw = get(url).text
print raw
我能够在" raw"
中获得所需的文字