转换标记为CSV

时间:2013-01-21 15:47:50

标签: python xml csv

这样的文件:

fieldname_A: eggs
fieldname_B: bacon 
~EOR~
..
..
~EOR~
fieldname_A: eggs
fieldname_C: spam
fieldname_Z: baked beans
~EOR~

总共有40个不同的字段名称,大约10,000个记录(EOR是记录结束),其中包含一组可变字段。大多数字段内容很短,有些很长(超过1000个字符)。

我正在寻找一种漂亮,干净,pythonic的方式将其转换为CSV,或者更确切地说,转换为Google电子表格。 (需要检查和更正数据。有几个人会这样做。谷歌文档是我知道他们处理相同数据而不会导致版本冲突或同步问题的唯一快捷方式。)

Dictwriter似乎是一种麻烦的方式,因为许多记录(即电子表格中的行)中的字段都是空的。

输入文件的形式更像是XML-ish,因此我想将其转换为XML,将其导入Excel,然后将其作为Google电子表格上传。

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

使用这个......

infile = "d.txt"
data = open(infile, "r").readlines()

dataDict = []
columns = []

rowData = {}
# Create a dictionary list
for line in data:
    if not line.strip():
        continue
    if "~EOR~" in line:
        keys = rowData.keys()
        dataDict.append(rowData)
        columns = list(set(columns) | set(keys))
        rowData = {}
    else:  
        cell = line.split(":", 1);
        print cell
        rowData[cell[0].strip().strip('"').strip("'")] = cell[1].strip().strip('"').strip("'")


# Write dictionary list to file
outfile = "d.csv"

with open(outfile, "w") as fp:

    columns.sort()

    for key in columns:
        fp.write(key + ", ")

    fp.write("\n")

    for data in dataDict:
        for key in columns:
            if key in data:
                fp.write(data[key] + ",")
            else:
                fp.write(",")
        fp.write("\n")

输入:

fieldname_A: eggs
fieldname_B: bacon 
~EOR~
fieldname_A: eggs
fieldname_C: spam
fieldname_Z: baked beans
~EOR~

输出:

fieldname_A, fieldname_B, fieldname_C, fieldname_Z, 
eggs,bacon,,,
eggs,,spam,baked beans,