我是Python的初学者,我想从网站上读取信息并在我的文本框中输出一些数据(我使用EasyGUI)。我发现这是为了获取URL的HTML源代码,但现在我想使用HTML输出,我知道如何使用XML,我想这对HTML来说有点相同。有没有办法处理元素和属性?
filehandle = urllib.urlopen('URL')
for lines in filehandle.readlines():
print lines
filehandle.close()
提前致谢
答案 0 :(得分:3)
正如所建议的那样,美丽的汤是一个可以帮助你的图书馆。 http://www.crummy.com/software/BeautifulSoup/bs3/download/2.x/documentation.html,显示了一个简单的例子。
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(filehandle.read())
titleTag = soup.html.head.title
Python也有一个内置的解析器。 http://docs.python.org/library/htmlparser.html
BeautifulSoup非常善于处理破解的HTML。
答案 1 :(得分:0)
如果您熟悉jQuery的语法来选择HTML元素,您可能会发现pyquery很有用。