从文本文件中读取数据并将其分配给数据框的最快方法是什么?

时间:2017-03-16 09:03:46

标签: python performance pandas dataframe

我想通过读取文本文件来创建多索引DataFrame。是创建多索引然后使用df.loc[[],[]]从文本文件中为其分配数据,还是将行连接到DataFrame并在最后设置DataFrame的索引更快?或者,使用列表或dict存储从文件中读取的数据是否更快,然后从中创建DataFrame?是否有更多的pythonic或更快的选择?

示例文本文件:

A = 1
 B = 1
  C data
  0 1
  1 2
A = 1
 B = 2
  C data
  1 3
  2 4
A = 2
 B = 1
  C data
  0 5
  2 6

输出DataFrame:

A B C data
1 1 0 1
    1 2
1 2 1 3
    2 4
2 1 0 5
    2 6

1月18日更新:这与How to parse complex text files using Python?相关联我还写了blog article explaining how to parse complex files to beginners

2 个答案:

答案 0 :(得分:8)

pandas中的元素逐元素查找是一项昂贵的操作,因此通过索引进行对齐。我会将所有内容读入数组,创建值的DataFrame,然后直接设置层次结构索引。如果你可以避免追加或查找,通常要快得多。

这是一个示例结果,假设您有一个数据集2-D数组,其中包含所有内容:

In [106]: dataset
Out[106]: 
array([[1, 1, 0, 1],
       [1, 1, 1, 2],
       [1, 2, 1, 3],
       [1, 2, 2, 4],
       [2, 1, 0, 5],
       [2, 1, 2, 6]])

In [107]: pd.DataFrame(dataset,columns=['A','B','C', 'data']).set_index(['A', 'B', 'C'])
     ...: 
Out[107]: 
       data
A B C      
1 1 0     1
    1     2
  2 1     3
    2     4
2 1 0     5
    2     6

In [108]: data_values = dataset[:, 3] 
     ...: data_index = pd.MultiIndex.from_arrays( dataset[:,:3].T, names=list('ABC'))
     ...: pd.DataFrame(data_values, columns=['data'], index=data_index)
     ...: 
Out[108]: 
       data
A B C      
1 1 0     1
    1     2
  2 1     3
    2     4
2 1 0     5
    2     6

In [109]: %timeit pd.DataFrame(dataset,columns=['A','B','C', 'data']).set_index(['A', 'B', 'C'])
%%timeit
1000 loops, best of 3: 1.75 ms per loop

In [110]: %%timeit
     ...: data_values = dataset[:, 3] 
     ...: data_index = pd.MultiIndex.from_arrays( dataset[:,:3].T, names=list('ABC'))
     ...: pd.DataFrame(data_values, columns=['data'], index=data_index)
     ...: 
1000 loops, best of 3: 642 µs per loop

答案 1 :(得分:5)

解析文本文件将是您处理开销的主要部分。

如果速度是主要问题,我建议使用pickle或shelve将DataFrame对象存储在准备使用的二进制文件中。

如果您因任何原因需要使用文本文件,可以编写单独的模块以便在格式之间进行翻译。