我是一名初学程序员,并希望在这个可能微不足道的问题上得到一些帮助:我有 包含结构的.xml文件:
<norm builddate="20120625150106" doknr="BJNR000020963BJNE000401308">
<metadaten>
<jurabk>BUrlG</jurabk>
<enbez>§ 3</enbez>
<titel format="parat">sometitle</titel>
</metadaten>
<textdaten>
<text format="XML">
<Content>
<P>(1) sometext</P>
<P>(2) anothertext</P>
</Content>
</text>
<fussnoten/>
</textdaten>
</norm>
现在我想在每个“P”内容中添加标签“enbez”+“P”(somenumber)+“jurabk”的字符串内容,例如:§3(1)BUrlG。然后我应用一些格式使其成为§3Abs。 1 BUrlG。
我设法获得了一个特定“enbez”和特定“P”标签的工作示例代码。但是我希望能够为整个文档自动执行此过程,但是无法正确编写迭代器以获取每个“enbez”中的每个“P”标记并将append函数应用于正确的段落。 我也写了尽可能笨拙的每一步,如果有更好的方法,我会非常感谢任何建议!
示例代码:
import string
import re
from urllib import urlopen
from bs4 import BeautifulSoup
xmlfile = urlopen('burlg.xml').read()
soup = BeautifulSoup(xmlfile)
# Find a specific enbez; the norm parent always contains only one
enbez = soup.findAll("enbez")
enbezspecial = enbez[3]
#find the norm parent
norm = enbezspecial.find_parent("norm")
#find all p's belonging to the norm parent
p = norm.findAll("p")
pspecial = p[1]
#Get the number, remove the brackets and add a whitespace
regex = re.compile('\(\d\)')
result = regex.match(pspecial.string)
resultstring = result.group()
resultstring1 = resultstring.replace("(","")
resultstring2 = resultstring1.replace(")","")
resultstring3 = " " + resultstring2
#find the shorttitle; is the same for the whole document
jurabk = soup.find("jurabk")
#add some output formatting
enbezprint = enbezspecial.text
paraprint = " Abs."+resultstring3
jurabkprint = " "+jurabk.text
appendix = "["+enbezprint+paraprint+jurabkprint+"]"
p[1].append(appendix)
print p[1]