如何在Python下解析特殊的XML格式?

时间:2016-07-28 01:17:51

标签: python xml

数据格式如下:

<doc>
<url>i am url</url>
<docno>01a064132d932277</docno>
<contenttitle>title</contenttitle>
<content>whatever the content is </content>
</doc>

...

<doc>
<url>i am another url</url>
<docno>01a064132d932277</docno>
<contenttitle>title</contenttitle>
<content>whatever the content is </content>
</doc>

因此整个文档包含许多小的XML格式内容,更具体地说,每6行都有一个XML格式。我尝试使用lxml或Beautiful Soup,但它们不提供每次读取六行的API。

此外,文件夹中还有多个.txt。

我该如何解决这个问题?

1 个答案:

答案 0 :(得分:3)

你可以:

  • 将文件(原始文本,未解析)读入字符串
  • 将“<root>”添加到开头,将“</root>”添加到字符串的末尾
  • 然后让BeautifulSoup解析生成的字符串。

然后,每个原始<doc>元素都是<root>的众多子元素之一。