Question

数据格式如下：

<doc>
<url>i am url</url>
<docno>01a064132d932277</docno>
<contenttitle>title</contenttitle>
<content>whatever the content is </content>
</doc>

...

<doc>
<url>i am another url</url>
<docno>01a064132d932277</docno>
<contenttitle>title</contenttitle>
<content>whatever the content is </content>
</doc>

因此整个文档包含许多小的XML格式内容，更具体地说，每6行都有一个XML格式。我尝试使用lxml或Beautiful Soup，但它们不提供每次读取六行的API。

此外，文件夹中还有多个.txt。

我该如何解决这个问题？

Answer 1

你可以：

将文件（原始文本，未解析）读入字符串
将“<root>”添加到开头，将“</root>”添加到字符串的末尾
然后让BeautifulSoup解析生成的字符串。

然后，每个原始<doc>元素都是<root>的众多子元素之一。

如何在Python下解析特殊的XML格式？

1 个答案: