我正在尝试使用Python Beautifulsoup构建一个简单的页面抓取器,每当我执行FindALL时,我都会继续返回[...]
以下是我试图抓取的页面:http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742
这是我的代码
htop
当我查看网站的HTML时,我可以看到td标签,我可以看到它们内部的数据,但我得到的唯一结果是[]。我使用的是Python 3.7和BeautifulSoup 4.6。
有什么想法吗?
答案 0 :(得分:3)
某些网站会屏蔽requests
的默认用户代理(pyhon-requests / version),或更改其响应内容。
theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl)
print(thepage.request.headers['User-Agent'])
print(thepage.text)
蟒-请求/ 2.18.1
但是,您可以在headers
中更改用户代理字符串。
theurl = "http://yiimp.eu/site/tx?address=DFc6oo4CAemHF4KerLG39318E1KciTs742"
thepage = requests.get(theurl, headers={'User-Agent':'MyAgent'})
soup = BeautifulSoup(thepage.text, "html.parser")
print(soup.find_all('td'))