我有一个带有一些XML数据的CSV文件。它看起来像这样:
meta1, meta2, sequence, "xml data"
xml数据中的信息有时包含逗号。
将此信息切割为仅包含4个元素的元组的最佳方法是什么?
我尝试使用字符串切片,但序列有时会有1或2位数。
使用line.split(',')无法正常工作:
for line in lines:
line.split(',')
答案 0 :(得分:2)
使用csv模块,如果正确引用(如您所示),它将正确处理xml数据。
import csv
with open('input.csv') as infile:
reader = csv.reader(infile)
for row in reader:
meta1, meta2, sequence, xml_data = row
# etc
答案 1 :(得分:0)
所以如果csv的风格总是如此:
meta1, meta2, sequence, "xml , , data" #as you said maybe some commas in the xml data
然后使用split但最大分割参数:
split(",", 3) #so at maximum there are 3 + 1 elements, because the maximum splitting is limited to 3 times splitting by ','.