网页抓取工具不适用于美丽汤料

时间:2018-12-24 23:23:23

标签: python-3.x beautifulsoup

这是我的代码,一个打开中文网站的简单请求:

import requests
from bs4 import BeautifulSoup

url = 'http://gujia.oilchem.net/l/p.do?productName=%E6%B1%BD%E6%B2%B9&area=%E5%85%A8%E5%9B%BD'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

response = requests.get(url, headers=headers, timeout=(20,20), verify=False)

print(response.content)

但我一直在找回此跟踪信息/错误:

  

回溯(最近通话最近一次):

     

文件“”,第1行,在       runfile('F:/Python/WebScrapes/OilChemScrapes.py',wdir ='F:/ Python / WebScrapes')

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ spyder \ utils \ site \ sitecustomize.py”,   运行文件中的第705行       execfile(文件名,命名空间)

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ spyder \ utils \ site \ sitecustomize.py”,   第102行,在execfile中       exec(compile(f.read(),文件名,'exec'),命名空间)

     

第15行中的文件“ F:/Python/WebScrapes/OilChemScrapes.py”       响应= request.get(URL,headers = headers,timeout =(20,20),verify = False)

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ requests \ api.py”,   第72行,进入       返回请求('get',url,params = params,** kwargs)

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ requests \ api.py”,   第58行,应要求       返回session.request(method = method,url = url,** kwargs)

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ requests \ sessions.py”,   508行,在请求中       resp = self.send(prep,** send_kwargs)

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ requests \ sessions.py”,   发送中的第618行       r = adapter.send(request,** kwargs)

     

文件   “ C:\ Users \ tliu210 \ AppData \ Local \ Continuum \ anaconda3 \ lib \ site-packages \ requests \ adapters.py”,   发送中的第490行       引发ConnectionError(err,request = request)

     

ConnectionError :(“连接已中止。”,RemoteDisconnected(“远程   结束无响应的关闭连接',))

我什至在标题中尝试了不同版本的Chrome

任何帮助将不胜感激

1 个答案:

答案 0 :(得分:0)

也许是错误的User-agent标头出现问题。在documentation中,标头必须类似于以下内容:

withUnsafeBytes