我试图在python中解析一个不是纯xml的文件,因为它不是纯粹的xml,xml解析器无法解析文件。
请建议我解决这个问题,我不想用I / O函数读取文件。
<groups>
<url>
description = helloz
<whatis>
<what_is_that>
active = yes
<inside_what>
<default>
<0>
tagid = 0
</0>
</default>
</inside_what>
<second_list>
<0>
name = do
</0>
</second_list>
</what_is_that>
答案 0 :(得分:0)
你可以尝试使用BeautifulSoup这样的东西。当你创建一个BeautifulSoup对象时,它将自己插入缺少的结束标记。然后你很高兴去提取任何你想要的东西。
from bs4 import BeautifulSoup
with open('file_name', 'r') as f:
a = f.read()
soup=BeautifulSoup(a, 'lxml')
print soup.find('inside_what')
输出:
<inside_what>
<default>
tagid = 0
0>
</default>
</inside_what>