Question

我正在尝试将具有相同列数的多个数据文件放入一组连续的数据中。 x 值是时间，每个后续数据文件都从前一个完成的时间开始。所以理论上，如果我做一些这样的代码：

    data = pd.read_csv(r"/PATH/out.txt", sep="\t")
    data2 = pd.read_csv(r"/PATH/out2.txt", sep="\t")
    data3 = pd.read_csv(r"/PATH/out3.txt", sep="\t")
    data4 = pd.read_csv(r"/PATH/out4.txt", sep="\t")
    data5 = pd.read_csv(r"/PATH/out5.txt", sep="\t")
    data6 = pd.read_csv(r"/PATH/out6.txt", sep="\t")
    data7 = pd.read_csv(r"/PATH/out7.txt", sep="\t")
    data8 = pd.read_csv(r"/PATH/out8.txt", sep="\t")

    print(data)

    data.append(data2, ignore_index=True)
    data.append(data3, ignore_index=True)
    data.append(data4, ignore_index=True)
    data.append(data5, ignore_index=True)
    data.append(data6, ignore_index=True)
    data.append(data7, ignore_index=True)
    data.append(data8, ignore_index=True)

    print(data)

    arr = data.to_numpy()

前后的print语句应该不一样吧？但是当我尝试时，它似乎没有将其他数据文件附加到第一个文件。我一定遗漏了一些明显的东西，有人可以帮忙吗？

数据文件采用 2 列格式，看起来像这样（最左边的列只是 Pandas 索引）：

            Time(s)  CMASS(1,1,53)
    0     97.000229       0.999999
    1     98.000183       0.999999
    2     98.001122       0.999999
    3     98.200874       0.999999
    4     98.400703       0.999999
    ..          ...            ...
    209  119.700410       0.999999
    210  119.800410       0.999999
    211  119.900410       0.999999
    212  120.000400       0.999999
    213  120.000400       0.999999

Answer 1

DataFrame.append 返回一个新对象，它不会修改调用它的数据帧。你必须这样做：

data = data.append(data2)

或者你可以这样做：

data = pd.concat(pd.read_csv(path) for path in list_of_paths_to_csv)

Answer 2

pandas.DataFrame.append 方法无法原地工作，而是返回一个新的 DataFrame。因此，您需要将返回值保存到您的变量中：

data = data.append(data2, ignore_index=True)

然而，在您的情况下使用 pandas.concat 方法会更有效：

import glob
data = pd.concat([pd.read_csv(f, sep="\t") for f in glob.glob('/PATH/out*.txt')])

将数据附加到熊猫数据框

2 个答案: