我正在尝试将具有相同列数的多个数据文件放入一组连续的数据中。 x 值是时间,每个后续数据文件都从前一个完成的时间开始。所以理论上,如果我做一些这样的代码:
data = pd.read_csv(r"/PATH/out.txt", sep="\t")
data2 = pd.read_csv(r"/PATH/out2.txt", sep="\t")
data3 = pd.read_csv(r"/PATH/out3.txt", sep="\t")
data4 = pd.read_csv(r"/PATH/out4.txt", sep="\t")
data5 = pd.read_csv(r"/PATH/out5.txt", sep="\t")
data6 = pd.read_csv(r"/PATH/out6.txt", sep="\t")
data7 = pd.read_csv(r"/PATH/out7.txt", sep="\t")
data8 = pd.read_csv(r"/PATH/out8.txt", sep="\t")
print(data)
data.append(data2, ignore_index=True)
data.append(data3, ignore_index=True)
data.append(data4, ignore_index=True)
data.append(data5, ignore_index=True)
data.append(data6, ignore_index=True)
data.append(data7, ignore_index=True)
data.append(data8, ignore_index=True)
print(data)
arr = data.to_numpy()
前后的print语句应该不一样吧?但是当我尝试时,它似乎没有将其他数据文件附加到第一个文件。我一定遗漏了一些明显的东西,有人可以帮忙吗?
数据文件采用 2 列格式,看起来像这样(最左边的列只是 Pandas 索引):
Time(s) CMASS(1,1,53)
0 97.000229 0.999999
1 98.000183 0.999999
2 98.001122 0.999999
3 98.200874 0.999999
4 98.400703 0.999999
.. ... ...
209 119.700410 0.999999
210 119.800410 0.999999
211 119.900410 0.999999
212 120.000400 0.999999
213 120.000400 0.999999
答案 0 :(得分:2)
DataFrame.append
返回一个新对象,它不会修改调用它的数据帧。你必须这样做:
data = data.append(data2)
或者你可以这样做:
data = pd.concat(pd.read_csv(path) for path in list_of_paths_to_csv)
答案 1 :(得分:1)
pandas.DataFrame.append 方法无法原地工作,而是返回一个新的 DataFrame。因此,您需要将返回值保存到您的变量中:
data = data.append(data2, ignore_index=True)
然而,在您的情况下使用 pandas.concat 方法会更有效:
import glob
data = pd.concat([pd.read_csv(f, sep="\t") for f in glob.glob('/PATH/out*.txt')])