Question

我正在尝试构建我的第一个网站刮刀，并且对Python和编程一般都是新手。我正在尝试练习抓取一个网站但我的代码由于某种原因不起作用。见下面的代码。当我运行代码时，它返回google.com的html而不是County Assessors页面。

这是我的Python代码的问题还是在县评估员页面上有一些代码重新路由我到谷歌？我该如何解决这个问题？任何帮助深表感谢。感谢。

#IMPORT LIBRARIES
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests

#SCRAPER CODE
web_page = 'https://mcassessor.maricopa.gov/index.php'
page = urlopen(web_page)
soup = BeautifulSoup(page,'html.parser')
print (soup)

Answer 1

您需要通过此User-Agent标头检查：

from bs4 import BeautifulSoup
import requests


web_page = 'https://mcassessor.maricopa.gov/index.php'
response = requests.get(web_page, headers={
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
})
soup = BeautifulSoup(response.content, 'html.parser')
print (soup.prettify())

Python网站刮板 - 返回Google Page

1 个答案: