Question

我正在使用带有dask的python 2.7

我有一个数据框，其中包含我创建的一列元组：

table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe)

我想将此元组列重新转换为两个单独的列在熊猫中，我会这样做：

table[[col1,col2]] = table[col].apply(pd.Series)

这样做的一点是，dask数据帧不支持多索引，我想根据多个列使用groupby，并希望创建一个元组列，它将为我提供一个包含我需要的所有值的索引（请忽略效率与多索引，因为还没有完全支持这是dask数据帧）

当我尝试使用此代码解压缩带有dask的元组列时：

rxTable[["a","b"]] = rxTable["tup"].apply(lambda x: s(x), meta = pd.DataFrame, axis = 1)

我收到此错误

AttributeError：'Series'对象没有属性'columns'

当我尝试

时

rxTable[["a","b"]] = rxTable["tup"].apply(dd.Series, axis = 1, meta = pd.DataFrame)

我得到了相同的

如何使用一列元组并将其转换为两列，就像我在Pandas中一样，没有问题？

由于

Answer 1

最好的我发现转换成pandas数据帧然后转换列，然后回到dask

df1 = df.compute()
df1[["a","b"]] = df1["c"].apply(pd.Series)
df = dd.from_pandas(df1,npartitions=1)

这将很好用，如果df对于内存来说太大，你可以： 1.仅计算所需列，将其转换为两列，然后使用merge将拆分结果转换为原始df 2.将df分成块，然后转换每个块并将其添加到hd5文件中，然后使用dask将整个hd5文件读入dask数据帧

Answer 2

我发现这种方法很好用，并且避免将Dask DataFrame转换为Pandas：

df['a'] = df['tup'].str.partition(sep)[0]
df['b'] = df['tup'].str.partition(sep)[2]

其中sep是您在该列中用来分隔两个元素的分隔符。