Question

我正在尝试使用Python Beautifulsoup构建一个简单的页面抓取器，每当我执行FindALL时，我都会继续返回[...]

以下是我试图抓取的页面：http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742

这是我的代码

htop

当我查看网站的HTML时，我可以看到td标签，我可以看到它们内部的数据，但我得到的唯一结果是[]。我使用的是Python 3.7和BeautifulSoup 4.6。

有什么想法吗？

Answer 1

某些网站会屏蔽requests的默认用户代理（pyhon-requests / version），或更改其响应内容。

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl)
print(thepage.request.headers['User-Agent'])
print(thepage.text)

蟒-请求/ 2.18.1

但是，您可以在headers中更改用户代理字符串。

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl, headers={'User-Agent':'MyAgent'})
soup = BeautifulSoup(thepage.text, "html.parser")
print(soup.find_all('td'))

BeautifulSoup和HTML.parse的问题

1 个答案: