我知道有很多方法可以使用第三方库来实现这一点,例如resources
,pyparsing
,selenium
等等,但我正在寻找一种快速而肮脏的方法它没有任何第三方模块。
基本上我想要做的是从网页的页面源获取HTML代码并将其解析为xml格式(可能使用xml.etree.ElementTree
)。我试过这个:
import urllib.request
import xml.etree.ElementTree as ET
data = urllib.request.urlopen(website)
tree = ET.fromstring(data.read)
然而,当我这样做时,我得到了不匹配的标签或UTF-8编码的未知符号,页面源肯定是。我假设一个功能正常的html页面不会有不匹配的标签所以我是认为我缺少一些东西。
我不想使用第三方库的全部原因是因为我需要获取一小部分信息,并且不认为这足以证明使用其他模块。