我的问题与在这里发现的问题非常相似:
How to pull data from KML/XML?
上述问题的答案是使用Nokogiri修复格式。
我想知道是否有一种方法可以解决类似的问题而不先固定格式。
如何获取dict的值,以便可以从下面的Element SimpleData中获取“ FM2”和“ FM3”?
这是我的kml:
<?xml version="1.0" encoding="UTF-8"?>
<kml xmlns="http://www.opengis.net/kml/2.2" xmlns:gx="http://www.google.com/kml/ext/2.2" xmlns:kml="http://www.opengis.net/kml/2.2" xmlns:atom="http://www.w3.org/2005/Atom">
<Document>
<name>Test.kml</name>
<open>1</open>
<Schema name="test" id="S_test_SSSSSIIIDSDDDDDISSSDSSSDD">
<SimpleField type="string" name="ID"> <displayName><b>ID</b></displayName>
</SimpleField>
<SimpleField type="string" name="cname"><displayName><b>cname</b></displayName>
</SimpleField>
</Schema>
<Style id="falseColor01">
<BalloonStyle>
<text><![CDATA[<table border="0"><tr>
<td>b>ID</b>/td>td>$[test/ID]</td></tr>
<tr><td><b>cname</b></td><td>$[test/cname]</td></tr>
</table>]]></text>
</BalloonStyle>
<LineStyle>
<color>ffffff00</color>
<width>3</width>
</LineStyle>
<PolyStyle>
<color>ffffff00</color>
<colorMode>random</colorMode>
<fill>0</fill>
</PolyStyle>
</Style>
<StyleMap id="falseColor0">
<Pair>
<key>normal</key>
<styleUrl>#falseColor00</styleUrl>
</Pair>
<Pair>
<key>highlight</key>
<styleUrl>#falseColor01</styleUrl>
</Pair>
</StyleMap>
<Style id="falseColor00">
<BalloonStyle>
</BalloonStyle>
<LineStyle>
<color>ffffff00</color>
<width>3</width>
</LineStyle>
<PolyStyle>
<color>ffffff00</color>
<colorMode>random</colorMode>
<fill>0</fill>
</PolyStyle>
</Style>
<Folder id="layer 0">
<name>Test_1</name>
<open>1</open>
<Placemark>
<styleUrl>#falseColor0</styleUrl>
<ExtendedData>
<SchemaData schemaUrl="#S_test_SSSSSIIIDSDDDDDISSSDSSSDD">
<SimpleData name="ID">FM2</SimpleData>
<SimpleData name="cname">FM2</SimpleData>
</SchemaData>
</ExtendedData>
<Polygon>
<outerBoundaryIs>
<LinearRing>
<coordinates>150.889999,-32.17281600000001,0
</coordinates>
</LinearRing>
</outerBoundaryIs>
</Polygon>
</Placemark>
<Placemark>
<styleUrl>#falseColor0</styleUrl>
<ExtendedData>
<SchemaData schemaUrl="#S_test_SSSSSIIIDSDDDDDISSSDSSSDD">
<SimpleData name="ID">FM3</SimpleData>
<SimpleData name="cname">FM3</SimpleData>
</SchemaData>
</ExtendedData>
<Polygon>
<outerBoundaryIs>
<LinearRing>
<coordinates>150.90104,-32.15662800000001,0
</coordinates>
</LinearRing>
</outerBoundaryIs>
</Polygon>
</Placemark>
</Folder>
</Document>
</kml>
我的目的是从元素“ ID”中获取元素值,即“ FM2”。
我正在尝试使用lxml etree。我的代码是:
tree = ET.parse(kml_file)
root = tree.getroot()
for Document in root:
for Folder in Document:
for Placemark in Folder:
for ExtendedData in Placemark:
for SchemaData in ExtendedData:
for SimpleData in SchemaData:
print(SimpleData.attrib)
,输出为: {'name':'ID'} {'name':'cname'}
如何获取dict的值,以便获得“ FM2”和“ FM3”?
我花了数小时试图解决问题。任何帮助将不胜感激。
答案 0 :(得分:0)
由于某种原因,我遇到了您的kml_file
的xml有效性问题,所以我是这样做的:
import lxml.html
tree = lxml.html.fromstring(kml_file)
results = tree.xpath("//*[@name = 'ID']")
for i in results:
if i.text:
print(i.text)
我不确定这是您要找的内容,但是输出为:
FM2
FM3
答案 1 :(得分:0)
您遇到的问题之一是,当您执行for x in y
时,您正在迭代当前元素的所有子元素。
因此,当您这样做时:
for Folder in Document:
...
您不只是遍历Folder
元素;您还将遍历name
,open
,Schema
,Style
和StyleMap
(目前不包括名称空间)。
通过测试name
属性值,然后返回元素文本,您仍可以得到所需的信息。
for Document in root:
for Folder in Document:
for Placemark in Folder:
for ExtendedData in Placemark:
for SchemaData in ExtendedData:
for SimpleData in SchemaData:
if SimpleData.get("name") == "ID":
print(SimpleData.text)
但是我不推荐它。
请改为考虑将XPath 1.0与lxml的xpath()
函数一起使用。
这将使您可以直接定位您感兴趣的元素。
在此示例中,我将使用完整路径而不是//
abbreviated syntax。我还将使用predicate测试属性值。
乍一看,您会认为,所有SimpleData
属性值为“ ID”的name
元素的XPath将是:
/kml/Document/Folder/Placemark/ExtendedData/SchemaData/SimpleData[@name='ID']
,但事实并非如此。如果您发现根(xmlns="http://www.opengis.net/kml/2.2"
)元素上有一个kml
。这意味着该元素及其所有后代元素都位于默认名称空间http://www.opengis.net/kml/2.2
中(除非在那些元素上另外声明)。
举例说明,如果您在print(f"In Folder element \"{Folder.tag}\"...")
循环中添加了for Folder in Document
,则会看到:
In Folder element "{http://www.opengis.net/kml/2.2}name"...
In Folder element "{http://www.opengis.net/kml/2.2}open"...
In Folder element "{http://www.opengis.net/kml/2.2}Schema"...
In Folder element "{http://www.opengis.net/kml/2.2}Style"...
In Folder element "{http://www.opengis.net/kml/2.2}StyleMap"...
In Folder element "{http://www.opengis.net/kml/2.2}Style"...
In Folder element "{http://www.opengis.net/kml/2.2}Folder"...
有几种处理namespaces in lxml的方法,但是我更喜欢在字典中声明它们并使用namespaces
参数传递它们。
这是一个完整的例子...
from lxml import etree
ns = {"kml": "http://www.opengis.net/kml/2.2"}
tree = etree.parse("test.kml")
for simple_data in tree.xpath("/kml:kml/kml:Document/kml:Folder/kml:Placemark/kml:ExtendedData/kml:SchemaData/kml:SimpleData[@name='ID']", namespaces=ns):
print(simple_data.text)
打印输出...
FM2
FM3