我认为这很有趣并且很有趣。我遇到了从未有过的奇怪情况。
我在鬼混pythons beautifulsoup。抓取https://www.amazon.ca后,我在HTML末尾得到了最奇怪的输出。
仅供参考,这是我用来证明与我无关的代码
import lxml
from bs4 import BeautifulSoup
import urllib.request as re
# ********Below is the soup used to gather the HTML************
url = "https://www.amazon.ca"
page = re.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
print(soup)
答案 0 :(得分:0)
因此,亚马逊不允许在其网站上进行网页抓取。他们可能会更改Web抓取程序的HTML内容。对我来说,HTML只是说:“禁止”。 如果您想从亚马逊获取数据,则可能需要使用他们的API