应用错误收集

我正在学习网页抓取的美丽。我的问题是，我可以显示与普通网页相似的内容吗？

我试过了：

import urllib
from bs4 import BeautifulSoup 
url="www.mywebsite.com"
html=urllib.urlopen(url).read()
soup=BeautifulSoup(html)
body=soup.body.text
body=body.encode('ascii','ignore')
print body

然而输出看起来很乱，我不想显示太多东西。还有更好的方法吗？先谢谢。

更新：我想在网页上显示文字。由于不同的网页格式不同，我可能不知道我需要提取哪个标签（span，li，...）。我的目标是提取尽可能多的信息。

使用美丽的汤显示网页内容

0 个答案: