Question

我正在尝试使用 BeautifulSoup 进行网页抓取并请求库，但我被网站阻止了。我不想从网站复制/粘贴，而是想自动完成，所以我尝试使用 Python。

我刚刚做了一个

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
results = soup.find(class_='list-xxx')

我试图理解 html，当我回到网站时，我被屏蔽了。

怎么会？我没有发送 1000 个请求。这是否意味着我们可以进行网页抓取？

谢谢

Answer 1

这可能有多种原因。您可能已搬到网站不提供服务的国家/地区。或者您发送了太多请求，从而违反了他们的条款。

在这种情况下，您描述的行为可以将您所看到的视为网站所有者不希望您抓取他们的信息，或者他们认为您以他们的频率发送的请求是尝试执行的DDoS（分布式拒绝服务）攻击。

如果他们不想允许抓取，那么最好避免这样做。但是，如果他们对抓取没有问题，最好与他们联系并询问他们的政策（如果尚未公开），以便您可以遵守该政策，如果允许抓取，则可以进行抓取你没有冒犯他们。