Question

我需要读取存储在许多相同格式的文件中的数据，但是长度不同，即相同的列，但行数不同。此外，我需要将每列数据存储在一个数组中（最好是一个numpy数组，但也可以接受列表）。

现在，我用numpy.loadtxt()读入循环中的每个文件，然后连接生成的数组。假设数据由3列组成，并存储在两个文件中＃34; foo＆＃34;和＆＃34; bar＆＃34;：

import numpy as np
filenames = ["foo", "bar"]
col1_all = 0  #data will be stored in these 3 arrays
col2_all = 0
col3_all = 0
for f in filename:
    col1, col2, col3 = np.loadtxt(f, unpack=True)
    if col1.shape[0] > 0: # I can't guarantee file won't be empty
        if type(col1_all) == int:
            # if there is no data read in yet, just copy arrays
            col1_all = col1[:]
            col2_all = col2[:]
            col3_all = col3[:]
        else:
            col1_all = np.concatenate((col1_all, col1))
            col2_all = np.concatenate((col2_all, col2))
            col3_all = np.concatenate((col3_all, col3))

我的问题是：有更好/更快的方法吗？我需要尽可能快，因为我需要阅读数百个文件。

我可以想象，例如，首先找出我将拥有多少行，并且＆＃34;分配＆＃34;一个足够大的数组，以便首先适应所有数据，然后复制该数组中的读入数据可能会更好，因为我绕过了连接。我不知道总行数，所以这也必须在python中完成。

首先在所有数据中读取另一个想法，分别存储每个读入，并最终将它们连接起来。（或者，因为这必须给我总行数，分配一个适合所有数据的行，然后在那里复制数据。）

有没有人对哪种方法最有效？

Answer 1

不要将每个文件与其余文件连接起来，阅读列表中的所有内容，并最终构建结果

import numpy as np
filenames = ["foo", "bar"]
data = np.concatenate([np.loadtxt(f) for f in filenames])

如果您愿意，可以将data拆分成列，但大多数情况下，这不是一个好主意。

Python快速获取单个numpy数组

1 个答案: