Question

我正在尝试通过打开此网址https://www.google.com/search?q=define+<something>并解析定义的来源，使用Google和urllib2来获取单词的定义。但是，当我尝试访问该页面时，我得到403错误，据说是为了防止这种情况下的数据挖掘。我很确定尝试绕过它是不明智的，所以我想知道是否有替代方法可以从谷歌的服务器访问数据，或者我应该使用的数据转储。

编辑：以下是我用来访问网址的代码范围;

url = "https://www.google.com/search?q=define+" + word
try:
    source = ulib.urlopen(url)
except ulib.HTTPError, e:
    print e.fp.read()

Answer 1

我们需要查看您的代码以进行确认，但您的问题可能已经回答here。简而言之，您需要定义用户代理。

403在Python中使用urllib2打开网页时出现“访问被拒绝”错误

1 个答案: