我正在尝试构建我的第一个网站刮刀,并且对Python和编程一般都是新手。我正在尝试练习抓取一个网站但我的代码由于某种原因不起作用。见下面的代码。当我运行代码时,它返回google.com的html而不是County Assessors页面。
这是我的Python代码的问题还是在县评估员页面上有一些代码重新路由我到谷歌?我该如何解决这个问题?任何帮助深表感谢。感谢。
#IMPORT LIBRARIES
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
#SCRAPER CODE
web_page = 'https://mcassessor.maricopa.gov/index.php'
page = urlopen(web_page)
soup = BeautifulSoup(page,'html.parser')
print (soup)
答案 0 :(得分:1)
您需要通过此User-Agent
标头检查:
from bs4 import BeautifulSoup
import requests
web_page = 'https://mcassessor.maricopa.gov/index.php'
response = requests.get(web_page, headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
})
soup = BeautifulSoup(response.content, 'html.parser')
print (soup.prettify())