在beautifulsoup网站刮刮后很奇怪/有趣的结果

时间:2018-09-06 15:59:45

标签: python beautifulsoup

我认为这很有趣并且很有趣。我遇到了从未有过的奇怪情况。

我在鬼混pythons beautifulsoup。抓取https://www.amazon.ca后,我在HTML末尾得到了最奇怪的输出。

meow??

有人能告诉我这是否是亚马逊开发人员有意提供的吗?还是其他?MEOW! HAHA

仅供参考,这是我用来证明与我无关的代码

import lxml
from bs4 import BeautifulSoup
import urllib.request as re


# ********Below is the soup used to gather the HTML************

url = "https://www.amazon.ca"
page = re.urlopen(url)
soup = BeautifulSoup(page, 'lxml')
print(soup)

1 个答案:

答案 0 :(得分:0)

因此,亚马逊不允许在其网站上进行网页抓取。他们可能会更改Web抓取程序的HTML内容。对我来说,HTML只是说:“禁止”。 如果您想从亚马逊获取数据,则可能需要使用他们的API