如何从Dask中的实木复合地板文件中读取数据帧的单行值?

时间:2019-06-04 19:20:16

标签: python dask

问题:DASK数据框

loc[concrete_row, concrete_column] 

返回具有多行的熊猫数据框,每行具有相同的索引:

0                   [1,2,3]
0                   [1,2]
0                   [3]

代替一行值。

0                   [1,2,3]

我正在读取许多实木复合地板文件:

dd.read_parquet(dataset_dir+'/train/date*/*.parquet')

实木复合地板文件中的每一行都有一个数组!

  • 似乎在调用具体行时,dask数据帧会返回每个分区具有该行索引的所有分区值。
  • 从镶木地板文件中读取时,所有的划分都不是
  • 我尝试设置索引并设置除法,但是它变得太慢了

我需要为每一行调用map函数,并获取此具体行的可迭代值。 我该如何解决?

1 个答案:

答案 0 :(得分:0)

  

我需要为每一行调用map函数,并获取此具体行的可迭代值。

听起来像您想要地图或应用方法。

def func(row):
    return ...

result = df.apply(func)

通常,Dask等并行计算工具不太适合一次获取一行数据。相反,通常在所有行上并行应用一个函数。