Question

如何抓取网页https://www.wongnai.com/chains/waraporn-sarapao 我用

import requests
import urllib.request
from bs4 import BeautifulSoup
import re


from urllib.request import Request, urlopen

req = Request('https://www.wongnai.com/businesses?originalQ=%E0%B8%8B%E0%B8%B2%E0%B8%A5%E0%B8%B2%E0%B9%80%E0%B8%9B%E0%B8%B2%E0%B8%A7%E0%B8%A3%E0%B8%B2%E0%B8%A0%E0%B8%A3&mode=2&q=%E0%B8%8B%E0%B8%B2%E0%B8%A5%E0%B8%B2%E0%B9%80%E0%B8%9B%E0%B8%B2%E0%B8%A7%E0%B8%A3%E0%B8%B2%E0%B8%A0%E0%B8%A3&cregion=1&rerank=false&page.number=3', headers={'User-Agent': 'Mozilla/5.0'})
r = urlopen(req).read()
soup = BeautifulSoup(r ,'html.parser')
print(soup)

在漂亮的汤和错误中不起作用无法将“ pyC：”识别为内部或外部命令，可操作的程序或批处理文件。

Traceback (most recent call last):
  File "scrape-test.py", line 10, in <module>
    r = urlopen(req).read()
  File "C:\Users\user.DESKTOP-HGCB2QF\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 222,
in urlopen
    return opener.open(url, data, timeout)
  File "C:\Users\user.DESKTOP-HGCB2QF\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 531,
in open
    response = meth(req, response)
  File "C:\Users\user.DESKTOP-HGCB2QF\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 641,
in http_response
    'http', request, response, code, msg, hdrs)
  File "C:\Users\user.DESKTOP-HGCB2QF\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 569,
in error
    return self._call_chain(*args)
  File "C:\Users\user.DESKTOP-HGCB2QF\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 503,
in _call_chain
    result = func(*args)
  File "C:\Users\user.DESKTOP-HGCB2QF\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 649,
in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

如何抓取bs4错误urllib.error.HTTPError：HTTP错误403：禁止

0 个答案: