我正在学习网页抓取的美丽。我的问题是,我可以显示与普通网页相似的内容吗?
我试过了:
import urllib
from bs4 import BeautifulSoup
url="www.mywebsite.com"
html=urllib.urlopen(url).read()
soup=BeautifulSoup(html)
body=soup.body.text
body=body.encode('ascii','ignore')
print body
然而输出看起来很乱,我不想显示太多东西。还有更好的方法吗?先谢谢。
更新:我想在网页上显示文字。由于不同的网页格式不同,我可能不知道我需要提取哪个标签(span,li,...)。我的目标是提取尽可能多的信息。