什么是解析python中不是纯xml的文件的最佳方法

时间:2016-12-29 13:12:22

标签: python

我试图在python中解析一个不是纯xml的文件,因为它不是纯粹的xml,xml解析器无法解析文件。

请建议我解决这个问题,我不想用I / O函数读取文件。

<groups>
   <url>
      description = helloz
      <whatis>
         <what_is_that>
            active = yes
            <inside_what>
               <default>
                  <0>
                     tagid = 0

                  </0>
               </default>
            </inside_what>
            <second_list>
               <0>
                  name = do
               </0>
            </second_list>
         </what_is_that>

1 个答案:

答案 0 :(得分:0)

你可以尝试使用BeautifulSoup这样的东西。当你创建一个BeautifulSoup对象时,它将自己插入缺少的结束标记。然后你很高兴去提取任何你想要的东西。

from bs4 import BeautifulSoup

with open('file_name', 'r') as f:
    a = f.read()
    soup=BeautifulSoup(a, 'lxml')
    print soup.find('inside_what')

输出:

<inside_what>
<default>

                     tagid = 0

                  0&gt;
               </default>
</inside_what>