我很擅长与xml,python和抓取数据进行交互,请耐心等待: 我有一个xml文件,我的笔记是从evernote保存的。我已经能够将BeautifulSoup和lxml加载到我的python环境中。我也能够加载xml文件并打印
继续我的代码直到打印:
from bs4 import BeautifulSoup
from xml.dom.minidom import parseString
file = open('myNotes.xml','r')
data = file.read()
dom = parseString(data)
print data.toxml()
我没有包含实际打印的文件,因为它包含大量的base 64代码。
我想要完成的是提取选择的xml标签并将它们打印到新文件......帮助!
答案 0 :(得分:1)
这是如何使用BeautifulSoup打印xml
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('myNotes.xml','r'))
print(soup.prettify())
并将其写入文件:
with open("file.txt", "w") as f:
f.write(soup.prettify())
现在,要将所有特定类型的标记提取到列表中:
# Extract all of the <a> tags:
tags = soup.find_all('a')