将html源代码解析为xml树

时间:2014-11-24 15:23:20

标签: python html xml html-parsing

我知道有很多方法可以使用第三方库来实现这一点,例如resourcespyparsingselenium等等,但我正在寻找一种快速而肮脏的方法它没有任何第三方模块。

基本上我想要做的是从网页的页面源获取HTML代码并将其解析为xml格式(可能使用xml.etree.ElementTree)。我试过这个:

import urllib.request
import xml.etree.ElementTree as ET
data = urllib.request.urlopen(website)
tree = ET.fromstring(data.read)

然而,当我这样做时,我得到了不匹配的标签或UTF-8编码的未知符号,页面源肯定是。我假设一个功能正常的html页面不会有不匹配的标签所以我是认为我缺少一些东西。

我不想使用第三方库的全部原因是因为我需要获取一小部分信息,并且不认为这足以证明使用其他模块。

0 个答案:

没有答案