我正在尝试通过打开此网址https://www.google.com/search?q=define+<something>
并解析定义的来源,使用Google和urllib2来获取单词的定义。但是,当我尝试访问该页面时,我得到403错误,据说是为了防止这种情况下的数据挖掘。我很确定尝试绕过它是不明智的,所以我想知道是否有替代方法可以从谷歌的服务器访问数据,或者我应该使用的数据转储。
编辑:以下是我用来访问网址的代码范围;
url = "https://www.google.com/search?q=define+" + word
try:
source = ulib.urlopen(url)
except ulib.HTTPError, e:
print e.fp.read()