Question

我认为这很有趣并且很有趣。我遇到了从未有过的奇怪情况。

我在鬼混pythons beautifulsoup。抓取https://www.amazon.ca后，我在HTML末尾得到了最奇怪的输出。

有人能告诉我这是否是亚马逊开发人员有意提供的吗？还是其他？

仅供参考，这是我用来证明与我无关的代码

import lxml
from bs4 import BeautifulSoup
import urllib.request as re


# ********Below is the soup used to gather the HTML************

url = "https://www.amazon.ca"
page = re.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
print(soup)

Answer 1

因此，亚马逊不允许在其网站上进行网页抓取。他们可能会更改Web抓取程序的HTML内容。对我来说，HTML只是说：“禁止”。如果您想从亚马逊获取数据，则可能需要使用他们的API

在beautifulsoup网站刮刮后很奇怪/有趣的结果

1 个答案: