将数据附加到熊猫数据框

时间:2021-07-15 08:23:24

标签: python pandas matplotlib

我正在尝试将具有相同列数的多个数据文件放入一组连续的数据中。 x 值是时间,每个后续数据文件都从前一个完成的时间开始。所以理论上,如果我做一些这样的代码:

    data = pd.read_csv(r"/PATH/out.txt", sep="\t")
    data2 = pd.read_csv(r"/PATH/out2.txt", sep="\t")
    data3 = pd.read_csv(r"/PATH/out3.txt", sep="\t")
    data4 = pd.read_csv(r"/PATH/out4.txt", sep="\t")
    data5 = pd.read_csv(r"/PATH/out5.txt", sep="\t")
    data6 = pd.read_csv(r"/PATH/out6.txt", sep="\t")
    data7 = pd.read_csv(r"/PATH/out7.txt", sep="\t")
    data8 = pd.read_csv(r"/PATH/out8.txt", sep="\t")

    print(data)

    data.append(data2, ignore_index=True)
    data.append(data3, ignore_index=True)
    data.append(data4, ignore_index=True)
    data.append(data5, ignore_index=True)
    data.append(data6, ignore_index=True)
    data.append(data7, ignore_index=True)
    data.append(data8, ignore_index=True)

    print(data)

    arr = data.to_numpy()

前后的print语句应该不一样吧?但是当我尝试时,它似乎没有将其他数据文件附加到第一个文件。我一定遗漏了一些明显的东西,有人可以帮忙吗?

数据文件采用 2 列格式,看起来像这样(最左边的列只是 Pandas 索引):

            Time(s)  CMASS(1,1,53)
    0     97.000229       0.999999
    1     98.000183       0.999999
    2     98.001122       0.999999
    3     98.200874       0.999999
    4     98.400703       0.999999
    ..          ...            ...
    209  119.700410       0.999999
    210  119.800410       0.999999
    211  119.900410       0.999999
    212  120.000400       0.999999
    213  120.000400       0.999999

2 个答案:

答案 0 :(得分:2)

DataFrame.append 返回一个新对象,它不会修改调用它的数据帧。你必须这样做:

data = data.append(data2)

或者你可以这样做:

data = pd.concat(pd.read_csv(path) for path in list_of_paths_to_csv)

答案 1 :(得分:1)

pandas.DataFrame.append 方法无法原地工作,而是返回一个新的 DataFrame。因此,您需要将返回值保存到您的变量中:

data = data.append(data2, ignore_index=True)

然而,在您的情况下使用 pandas.concat 方法会更有效:

import glob
data = pd.concat([pd.read_csv(f, sep="\t") for f in glob.glob('/PATH/out*.txt')])