数据格式如下:
<doc>
<url>i am url</url>
<docno>01a064132d932277</docno>
<contenttitle>title</contenttitle>
<content>whatever the content is </content>
</doc>
...
<doc>
<url>i am another url</url>
<docno>01a064132d932277</docno>
<contenttitle>title</contenttitle>
<content>whatever the content is </content>
</doc>
因此整个文档包含许多小的XML格式内容,更具体地说,每6行都有一个XML格式。我尝试使用lxml或Beautiful Soup,但它们不提供每次读取六行的API。
此外,文件夹中还有多个.txt。
我该如何解决这个问题?
答案 0 :(得分:3)
你可以:
<root>
”添加到开头,将“</root>
”添加到字符串的末尾然后,每个原始<doc>
元素都是<root>
的众多子元素之一。