如何使用python从本地xml文件中提取特定的xml标记?

时间:2013-11-16 21:30:16

标签: python xml parsing xml-parsing screen-scraping

我很擅长与xml,python和抓取数据进行交互,请耐心等待: 我有一个xml文件,我的笔记是从evernote保存的。我已经能够将BeautifulSoup和lxml加载到我的python环境中。我也能够加载xml文件并打印

继续我的代码直到打印:

from bs4 import BeautifulSoup
from xml.dom.minidom import parseString
file = open('myNotes.xml','r')
data = file.read()
dom = parseString(data)
print data.toxml()

我没有包含实际打印的文件,因为它包含大量的base 64代码。

我想要完成的是提取选择的xml标签并将它们打印到新文件......帮助!

1 个答案:

答案 0 :(得分:1)

这是如何使用BeautifulSoup打印xml

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('myNotes.xml','r'))
print(soup.prettify())

并将其写入文件:

with open("file.txt", "w") as f:
    f.write(soup.prettify())

现在,要将所有特定类型的标记提取到列表中:

# Extract all of the <a> tags:    
tags = soup.find_all('a')