这是我的XML文件:它包含重复的元素<houseNum>0</houseNum>
。
<?xml version="1.0" encoding="utf-8"?>
<ArrayOfHouse>
<XmlForm>
<houseNum>0</houseNum>
<plan1>
<coord>
<X> 1.2 </X>
<Y> 2.1 </Y>
<Z> 3.0 </Z>
</coord>
<color>
<R> 255 </R>
<G> 0 </G>
<B> 0 </B>
</color>
</plan1>
<plan2>
<coord>
<X> 21.2 </X>
<Y> 22.1 </Y>
<Z> 31.0 </Z>
</coord>
<color>
<R> 255 </R>
<G> 0 </G>
<B> 0 </B>
</color>
</plan2>
</XmlForm>
<XmlForm>
<houseNum>0</houseNum>
<plan1>
<coord>
<X> 1.2 </X>
<Y> 2.1 </Y>
<Z> 3.0 </Z>
</coord>
<color>
<R> 255 </R>
<G> 0 </G>
<B> 0 </B>
</color>
</plan1>
<plan2>
<coord>
<X> 21.2 </X>
<Y> 22.1 </Y>
<Z> 31.0 </Z>
</coord>
<color>
<R> 255 </R>
<G> 0 </G>
<B> 0 </B>
</color>
</plan2>
</XmlForm>
<XmlForm>
<houseNum>1</houseNum>
<plan1>
<coord>
<X> 11.2 </X>
<Y> 12.1 </Y>
<Z> 13.0 </Z>
</coord>
<color>
<R> 255 </R>
<G> 255 </G>
<B> 0 </B>
</color>
</plan1>
<plan2>
<coord>
<X> 211.2 </X>
<Y> 212.1 </Y>
<Z> 311.0 </Z>
</coord>
<color>
<R> 255 </R>
<G> 0 </G>
<B> 255 </B>
</color>
</plan2>
</XmlForm>
</ArrayOfHouse>
就我而言,有两种类型的重复:
1)如果重复元素是连续的,这里是我删除重复元素的代码,我只是比较元素[i]和元素[i + 1],如果这些elemet [i] .text = = element [i + 1] .text,我删除元素[i + 1]
from lxml import etree
def Remove_Duplication_XML(xml_file):
base_name = os.path.basename(xml_file)
start_time = time.time()
tree = etree.parse(xml_file)
# remove duplicate skeletons
root = tree.getroot()
elementlist = [e for e in root.iter('houseNum')]
numframes=[x.text for x in elementlist]
print(numframes)
for index_element in range(1, len(elementlist)):
try:
if elementlist[index_element].text == elementlist[index_element - 1].text:
elementlist[index_element].getparent().remove(elementlist[index_element])
print(elementlist[index_element].text)
except:
print(' except ')
# String xml without duplication
file = etree.tostring(root).decode("utf-8")
print(file)
2)如果重复的元素不是连续的,我正在寻找一系列的工作来做到这一点。有什么帮助吗?
答案 0 :(得分:3)
考虑XSLT,这是专门用于转换XML文件的语言(类似于使用SQL,也是特殊用途的,用于查询数据库)。因为您已经使用了Python的lxml
,所以您可以无需一个for
循环或if
逻辑无缝地运行这样的脚本,以删除文档中> 的重复项。< / p>
具体来说,运行Muenchian Grouping(一种XSLT 1.0方法),使用<xsl:key>
通过 houseNum 索引XML文档,然后返回不同的分组。有了额外的好处,XSLT以下甚至可以删除带有漂亮打印缩进的文本节点中的空白区域:
XSLT (另存为.xsl文件,一个特殊的.xml文件)
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output indent="yes" method="xml"/>
<xsl:strip-space elements="*"/>
<xsl:key name="id" match="XmlForm" use="houseNum" />
<xsl:template match="@*|node()">
<xsl:copy>
<xsl:apply-templates select="@*|node()"/>
</xsl:copy>
</xsl:template>
<xsl:template match="XmlForm[generate-id() != generate-id(key('id', houseNum))]"/>
<xsl:template match="text()">
<xsl:value-of select="normalize-space(.)"/>
</xsl:template>
</xsl:stylesheet>
<强>的Python 强>
import os
import lxml.etree as et
# LOAD XML AND XSL FILES
xml = et.parse('Source.xml')
xsl = et.parse('XSLTScript.xsl')
# TRANSFORM SOURCE
transform = et.XSLT(xsl)
result = transform(xml)
# PRINT RESULT TO SCREEN
print(result)
# SAVE RESULT TO FILE
with open('Output.xml', 'wb') as f:
f.write(result)
输出 (通知文本值被修剪为空格)
<?xml version="1.0"?>
<ArrayOfHouse>
<XmlForm>
<houseNum>0</houseNum>
<plan1>
<coord>
<X>1.2</X>
<Y>2.1</Y>
<Z>3.0</Z>
</coord>
<color>
<R>255</R>
<G>0</G>
<B>0</B>
</color>
</plan1>
<plan2>
<coord>
<X>21.2</X>
<Y>22.1</Y>
<Z>31.0</Z>
</coord>
<color>
<R>255</R>
<G>0</G>
<B>0</B>
</color>
</plan2>
</XmlForm>
<XmlForm>
<houseNum>1</houseNum>
<plan1>
<coord>
<X>11.2</X>
<Y>12.1</Y>
<Z>13.0</Z>
</coord>
<color>
<R>255</R>
<G>255</G>
<B>0</B>
</color>
</plan1>
<plan2>
<coord>
<X>211.2</X>
<Y>212.1</Y>
<Z>311.0</Z>
</coord>
<color>
<R>255</R>
<G>0</G>
<B>255</B>
</color>
</plan2>
</XmlForm>
</ArrayOfHouse>