XML解析Python ElementTree-嵌套循环

时间:2020-04-20 14:31:59

标签: python xml elementtree

我正在使用Jupyter Notebook和ElementTree(Python 3)创建数据框并从XML文件另存为csv。这是XML格式(爱沙尼亚语):

<asutused hetk="2020-04-14T03:53:33" ver="2">
    <asutus>
        <registrikood>10000515</registrikood>
        <nimi>Osaühing B.Braun Medical</nimi>
        <aadress />
        <tegevusload>
            <tegevusluba>
                <tegevusloa_number>L04647</tegevusloa_number>
                <alates>2019-12-10</alates>
                <kuni />
                <loaliik_kood>1</loaliik_kood>
                <loaliik_nimi>Eriarstiabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
            <tegevusluba>
                <tegevusloa_number>L04651</tegevusloa_number>
                <alates>2019-12-11</alates>
                <kuni />
                <loaliik_kood>2</loaliik_kood>
                <loaliik_nimi>Õendusabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
        </tegevusload>
        <tootajad>
            <tootaja>
                <kood>D03091</kood>
                <eesnimi>Evo</eesnimi>
                <perenimi>Kaha</perenimi>
                <kutse_kood>11</kutse_kood>
                <kutse_nimi>Arst</kutse_nimi>
                <erialad>
                    <eriala>
                        <kood>E420</kood>
                        <nimi>üldkirurgia</nimi>
                    </eriala>
                </erialad>
            </tootaja>
            <tootaja>
                <kood>N01146</kood>
                <eesnimi>Karmen</eesnimi>
                <perenimi>Mežulis</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N01153</kood>
                <eesnimi>Nele</eesnimi>
                <perenimi>Terras</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N02767</kood>
                <eesnimi>Helena</eesnimi>
                <perenimi>Tern</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N12882</kood>
                <eesnimi>Hanna</eesnimi>
                <perenimi>Leemet</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
        </tootajad>
    </asutus>
</asutused>

每个“ asutus”都是医院,我需要里面的一些信息。这是我的代码:

tree = ET.parse("od_asutused.xml")
root = tree.getroot()

# open a file for writing
data = open('EE.csv', 'w')

# create the csv writer object
csvwriter = csv.writer(data, delimiter=';')
head = []

count = 0
for member in root.findall('asutus'):
    hospital = []
    if count == 0:
        ident = member.find('registrikood').tag
        head.append(id)
        name = member.find('nimi').tag
        head.append(name)
        address = member.find('aadress').tag
        head.append(address)
        facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').tag
        head.append(facility_type)
        site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').tag
        head.append(site_address)
        for elem in member.findall('tegevusload'):
            list_specs = elem.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').tag
            head.append(list_specs)
        csvwriter.writerow(head)
        count = count + 1

    ident = member.find('registrikood').text
    hospital.append(ident)
    name = member.find('nimi').text
    hospital.append(name)
    address = member.find('aadress').text
    hospital.append(address)
    facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').text
    hospital.append(facility_type)
    site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').text
    hospital.append(site_address)
    for spec in elem.findall('tegevusload'):
        list_specs = spec.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').text
        hospital.append(list_specs)
    csvwriter.writerow(hospital)
data.close()

#Upload csv for geocoding
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

#Rename columns
df.rename(columns = {'<built-in function id>':'id', 
                     'nimi':'name',
                     'aadress':'address',
                     'haiglaliik_nimi':'facility_type',
                     'haiglaliik_kood':'facility_type_c',
                     'aadress.1':'site_address',
                     'nimi.1':'list_specs'},
          inplace = True) 

#Add columns
df['country'] = 'Estonia' 
df['cc'] = 'EE'

df.head(10)

df.head(10)的结果:

Result of dataframe

无论我做什么,“ list_specs”都是空白。如何为每个站点地址的每个“ nimi”列表填充此字段?谢谢。

1 个答案:

答案 0 :(得分:0)

我在您的代码中发现以下几点需要更改:

  1. 至少在我的计算机上,调用 csv.writer 会导致换行符 是加倍。我发现的解决方法是使用打开文件 其他参数:

    data = open('EE.csv', 'w', newline='\n', encoding='utf-8') 
    
  2. 用爱沙尼亚语列名写 head ,然后 重命名列。另请注意,在head.append(id)中,您使用了未声明的 变量( id )。 但这不是那么重要,因为我通过撰写来更改了整个章节 目标列名(见下文)。

  3. 在编写要由 read_csv 读取的CSV文件时,该文件应包含一个 固定的列数。因此,使用循环写代码是一种不好的做法 一个元素。

  4. 您的指令list_specs = elem.findall(...)是错误的,因为 当前循环中未设置 elem 。相反,您应该使用 member (但 我用其他方法解决了这个细节)。

  5. 仅为了使用一次变量就没有意义。 例如,更简洁易读的代码hospital.append(member.findtext('nimi'))

  6. 为了避免使用较长的 XPath 表达式,并重复了开头部分,我决定 在此路径的“中间”设置一个临时变量,例如 tgvLb = member.find('tegevusload/tegevusluba'),然后使用亲戚 从该节点开始的 XPath

  7. 您的重命名指令包含一个不需要的列,即 facility_type_c 。您仅阅读 6 列,而不阅读 7

因此将代码的中间部分更改为:

data = open('EE.csv', 'w', newline='\n', encoding='utf-8')
csvwriter = csv.writer(data, delimiter=';')
head = ['id', 'name', 'address', 'facility_type', 'site_address', 'list_specs']
csvwriter.writerow(head)
for member in root.findall('asutus'):
    hospital = []
    hospital.append(member.findtext('registrikood'))
    hospital.append(member.findtext('nimi'))
    hospital.append(member.findtext('aadress'))
    tgvLb = member.find('tegevusload/tegevusluba')
    hospital.append(tgvLb.findtext('haiglaliik_nimi'))
    tgvKoht = tgvLb.find('tegevuskohad/tegevuskoht')
    hospital.append(tgvKoht.findtext('aadress'))
    hospital.append(tgvKoht.findtext('teenused/teenus/nimi'))
    csvwriter.writerow(hospital)
data.close()
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

并从代码中删除 df.rename