Question

我有一个相当大的逗号分隔的 csv文件，其结构类似于：

ZipCd Var1 Var2 Var 3
12345 12    45   10
67890 13    23    5
  .   .     .    .
  .   .     .    .
  .   .     .    .
30010 99    17   6

对于每个ZipCd，右侧有许多变量（大约250个变量）。我想生成以下输出：

ZipCd Var Value
12345 1    12
12345 2    45
12345 3    10
67890 1    13
67890 2    23
67890 3    5
30010 1    99
30010 2    17
30010 3    6

我尝试过以下方法：

with open("file.csv") as f, open("out.csv","w") as out:
   headers = next(f).split()[0:] #Get first row of original csv for headers and variable names
   for row in f:
      row = row.split(",") #split row into values delimitted by comma
      ZipCd = row[0]
      Var1 = row[1]
      Var2 = row[2]
      Var3 = row[3]
      data = zip(headers, row[1:])
      for a, b in data:
         out.write("{} {} {}\n".format(ZipCd,a,b))

这就产生了：

12345 ZipCd,Var1,Var2,Var3 12
67890 ZipCd,Var1,Var2,Var3 13

非常感谢任何有助于产生所需输出的帮助。

Answer 1

输入文件分隔符似乎有混淆。它显然是逗号，但您使用无参数拆分标题：标题不拆分，并包含所有字段，逗号分隔。

我正在提出一个解决方案

使用csv模块读取输入文件，更清晰。
接受尽可能多的变量
像你一样使用zip来“转置”数据
好的技巧for zipcd,*vars in cr用于将zipcd作为第一个字段，vars作为剩余字段（称为扩展可迭代解包又称为“*目标特征“正如Martineau今天在另一个答案中解释的那样”

代码：

import csv

with open("file.csv") as f, open("out.csv","w") as out:
    cr = csv.reader(f)  # default separator is comma
    variable_names = next(cr)[1:]  # ignore first field in the title line
    out.write("ZipCd Var Value\n")
    for zipcd,*vars in cr:
        for vn,vv in zip(variable_names,vars):  # interleave data
            out.write("{} {} {}\n".format(zipcd,vn,vv))

示例输入：

ZipCd,Var1,Var2,Var3
12345,12,45,10
67890,13,23,5
30010,99,17,6

结果输出：

ZipCd Var Value
12345 Var1 12
12345 Var2 45
12345 Var3 10
67890 Var1 13
67890 Var2 23
67890 Var3 5
30010 Var1 99
30010 Var2 17
30010 Var3 6

在维护ID时转置csv

1 个答案: