解析包含嵌入式XML的CSV行

时间:2015-01-20 11:34:14

标签: python xml csv

我有一个带有一些XML数据的CSV文件。它看起来像这样:

meta1, meta2, sequence, "xml data"

xml数据中的信息有时包含逗号。

将此信息切割为仅包含4个元素的元组的最佳方法是什么?

我尝试使用字符串切片,但序列有时会有1或2位数。

使用line.split(',')无法正常工作:

for line in lines:
  line.split(',')

2 个答案:

答案 0 :(得分:2)

使用csv模块,如果正确引用(如您所示),它将正确处理xml数据。

import csv

with open('input.csv') as infile:
    reader = csv.reader(infile)
    for row in reader:
        meta1, meta2, sequence, xml_data = row
        # etc

答案 1 :(得分:0)

所以如果csv的风格总是如此:

meta1, meta2, sequence, "xml , , data" #as you said maybe some commas in the xml data

然后使用split但最大分割参数:

split(",", 3) #so at maximum there are 3 + 1 elements, because the maximum splitting is limited to 3 times splitting by ','.