BeautifulSoup和HTML.parse的问题

时间:2018-01-18 23:13:24

标签: python web-scraping beautifulsoup html-parsing

我正在尝试使用Python Beautifulsoup构建一个简单的页面抓取器,每当我执行FindALL时,我都会继续返回[...]

以下是我试图抓取的页面:http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742

这是我的代码

htop

当我查看网站的HTML时,我可以看到td标签,我可以看到它们内部的数据,但我得到的唯一结果是[]。我使用的是Python 3.7和BeautifulSoup 4.6。

有什么想法吗?

1 个答案:

答案 0 :(得分:3)

某些网站会屏蔽requests的默认用户代理(pyhon-requests / version),或更改其响应内容。

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl)
print(thepage.request.headers['User-Agent'])
print(thepage.text)
  

蟒-请求/ 2.18.1

但是,您可以在headers中更改用户代理字符串。

theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl, headers={'User-Agent':'MyAgent'})
soup = BeautifulSoup(thepage.text, "html.parser")
print(soup.find_all('td'))