Question

我有一个XML文件，我在xml文件的数据中进行了解析，得到如下列表：

湿度数据=“湿度：73％” icon data =“/ ig / images / weather / cloudy.gif” wind_condition data =“Wind：N at 5 mph”

我想编写一个python代码，我只能捕获引号中的值并将其放入列表中。

Answer 1

以下代码显示了如何使用proper XML parser解析XML。 xml流是根据您提供的部分信息重建的。

xml_strg = """<?xml version="1.0"?>
<xml_api_reply version="1">
    <weather module_id="0" tab_id="0" mobile_row="0" mobile_zipped="1" row="0" section="0" >
        <forecast_information>
            <city data="Baton Rouge, LA"/>
            <postal_code data="baton rouge,la"/>
            <latitude_e6 data=""/>
            <longitude_e6 data=""/>
            <forecast_date data="2011-02-22"/>
            <current_date_time data="2011-02-22 20:06:59 +0000"/>
            <unit_system data="US"/>
        </forecast_information>
        <current_conditions>
            <condition data="Cloudy"/>
            <temp_f data="72"/>
            <temp_c data="22"/>
            <humidity data="Humidity: 73%"/>
            <icon data="/ig/images/weather/cloudy.gif"/>
            <wind_condition data="Wind: N at 5 mph"/>
        </current_conditions>
    </weather>
</xml_api_reply>
"""        

import xml.etree.cElementTree as et

root =  et.fromstring(xml_strg)
result = []
for elem in root.find('./weather/current_conditions'):
    if elem.tag in ('humidity', 'icon', 'wind_condition'):
        result.append(elem.get('data'))
print result

输出：

['Humidity: 73%', '/ig/images/weather/cloudy.gif', 'Wind: N at 5 mph']

Answer 2

您在上面显示的内容实际上并不是一个列表，因此我们需要知道您的数据对象的外观。例如，如果您将示例放在单个字符串中，例如：

'humidity data="Humidity: 73%" icon data="/ig/images/weather/cloudy.gif" wind_condition data="Wind: N at 5 mph"'

您可以解析此字符串以获取列表中的所有引用部分，如下所示：

import re
re.findall('\"(.+?)\"', in_string)

这使用非贪婪匹配来查找与开头和结尾引号匹配的所有子字符串，其间的文本使用括号获取。请在此处查看正则表达式的完整详细信息：docs.python.org

Answer 3

以下内容将从您的响应中提取所有条件块，并将其返回到dicts列表中。从那里你可以得到你需要的任何东西。

#!/usr/bin/env python

from xml.etree.ElementTree import XML
import sys
data = """<?xml version="1.0"?>
<xml_api_reply version="1">
<weather module_id="0" tab_id="0" mobile_row="0" mobile_zipped="1" row="0" section="0">
    <forecast_information>
        <city data="Baton Rouge, LA"/>
        <postal_code data="baton rouge,la"/>
        <latitude_e6 data=""/>
        <longitude_e6 data=""/>
        <forecast_date data="2011-02-22"/>
        <current_date_time data="2011-02-22 20:06:59 +0000"/>
        <unit_system data="US"/>
    </forecast_information>
    <current_conditions>
        <condition data="Cloudy"/>
        <temp_f data="72"/>
        <temp_c data="22"/>
        <humidity data="Humidity: 73%"/>
        <icon data="/ig/images/weather/cloudy.gif"/>
    </current_conditions>
</weather>
</xml_api_reply>
"""

tree = XML(data)
conditions = tree.findall("weather/current_conditions")
results = []
for c in conditions:
    curr_results = {}
    for child in c.getchildren():
        curr_results[child.tag] = child.get('data')
    results.append(curr_results)

print results

Answer 4

这里的代码将使用数据元素提取所有元素并将其转换为字典：

>>> from lxml import etree
>>> filePath = 'c:/test.xml'
>>> root = etree.parse(filePath)
>>> keypairs = dict((r.tag, r.get('data')) for r in root.xpath('//*[@data]'))

>>> print keypairs
{'city': 'Baton Rouge, LA', 'forecast_date': '2011-02-22', 'latitude_e6': '', 'l
ongitude_e6': '', 'temp_c': '22', 'humidity': 'Humidity: 73%', 'postal_code': 'b
aton rouge,la', 'unit_system': 'US', 'temp_f': '72', 'current_date_time': '2011-
02-22 20:06:59 +0000', 'condition': 'Cloudy', 'icon': '/ig/images/weather/cloudy
.gif'}

>>> print keypairs['humidity']
Humidity: 73%

Answer 5

使用此文本（请注意我在末尾添加了<icon data="([^"]*)"/><wind_condition data="([^"]*)"/>因为此部分不在您的示例中）在名为“joeljames.txt”的文件中：

<?xml version="1.0"?><xml_api_reply version="1"><weather module_id="0" tab_id="0" mobile_row="0" mobile_zipped="1" row="0" section="0" ><forecast_information><city data="Baton Rouge, LA"/><postal_code data="baton rouge,la"/><latitude_e6 data=""/><longitude_e6 data=""/><forecast_date data="2011-02-22"/><current_date_time data="2011-02-22 20:06:59 +0000"/><unit_system data="US"/></forecast_information><current_conditions><condition data="Cloudy"/><temp_f data="72"/><temp_c data="22"/><humidity data="Humidity: 73%"/><icon data="/ig/images/weather/cloudy.gif"/><wind_condition data="Wind: N at 5 mph"/>

以下短代码

import re

with open('joeljames.txt','rb') as f:
    RE = ('humidity data="([^"]*)"/>'
          '<icon data="([^"]*)"/>'
          '<wind_condition data="([^"]*)"/>')
    print re.search(RE,f.read()).groups()

甚至

import re
print re.search(('humidity data="([^"]*)"/>'
                 '<icon data="([^"]*)"/>'
                 '<wind_condition data="([^"]*)"/>'),
                open('joeljames.txt','rb').read()).groups()

有结果：

('Humidity: 73%', '/ig/images/weather/cloudy.gif', 'Wind: N at 5 mph')

没有更多。

我知道，XML解析器的牧师会说yoooou必须使用XML解析器，因为有一些非常高效且编码器必须是懒惰等等... 它们是正确的，以防必须获得必须复杂的算法。

但是如果这里有一个简单的目标，我认为有理由不求助于XML解析器，而且如果一个人不知道使用它。你呢？

对于我的解决方案，嗯，你必须知道正则表达式，是的...当有人想做某事时，有必要使用最少的工具。你一定也应该懂一种语言......

您可以使用解析器解决方案，没问题。但是现在你知道它也可以用正则表达式而且你可以选择。

编辑：

回答批评者，元素的顺序可能并不总是相同：

import re
print dict(re.findall('(humidity data|icon data|wind_condition data)'
                      '="([^"]*)"/>',open('joeljames.txt','rb').read()))

打印

{'humidity data': 'Humidity: 73%', 'icon data': '/ig/images/weather/cloudy.gif', 'wind_condition data': 'Wind: N at 5 mph'}

如何使用python获取引号中的值

5 个答案: