Question

我最近遇到的 dask 问题之一是编码需要很多时间，我想加快速度。

问题：给定一个 dask df (ddf)，对其进行编码，然后返回 ddf。

这里是一些开始的代码：

# !pip install feature_engine

import dask.dataframe as dd
import pandas as pd
import numpy as np
from feature_engine.encoding import CountFrequencyEncoder

df = pd.DataFrame(np.random.randint(1, 5, (100,3)), columns=['a', 'b', 'c'])

# make it object cols
for col in df.columns:
    df[col] = df[col].astype(str)

ddf = dd.from_pandas(df, npartitions=3)

x_freq = ddf.copy()

for col_idx, col_name in enumerate(x_freq.columns):
    freq_enc = CountFrequencyEncoder(encoding_method='frequency')
    col_to_encode = x_freq[col_name].to_frame().compute()
    encoded_col = freq_enc.fit_transform(col_to_encode).rename(columns={col_name: col_name + '_freq'})
    
    x_freq = dd.concat([x_freq, encoded_col], axis=1)

x_freq.head()

它会像我预期的那样运行良好，将 pandas df 添加到 dask df - 没问题。但是当我尝试另一个 ddf 时，出现错误：

x_freq = x.copy()
# npartitions = x_freq.npartitions
# x_freq = x_freq.repartition(npartitions=npartitions).reset_index(drop=True)

for col_idx, col_name in enumerate(x_freq.columns):
    freq_enc = CountFrequencyEncoder(encoding_method='frequency')
    col_to_encode = x_freq[col_name].to_frame().compute()
    encoded_col = freq_enc.fit_transform(col_to_encode).rename(columns={col_name: col_name + '_freq'})

    x_freq = dd.concat([x_freq, encoded_col], axis=1) 
    break

x_freq.head()

concat 期间发生错误：

ValueError: Unable to concatenate DataFrame with unknown division specifying axis=1

这就是我加载“错误”ddf 的方式：

ddf = dd.read_parquet(os.path.join(dir_list[0], '*.parquet'), engine='pyarrow').repartition(partition_size='100MB')

我读到我应该尝试重新分区和/或重置索引和/或使用分配。都没有用。

x_freq = x.copy()

在第二个例子中类似于：

x_freq = ddf.copy()

在第一个例子中，x 只是我试图编码的一些 ddf，但在这里定义它需要很多代码。

有人可以帮忙吗？

Answer 1

这就是我认为可能发生的事情。

您的镶木地板文件中可能没有分区信息。因此，您不能只是 dd.concat，因为不清楚分区如何对齐。

您可以通过以下方式查看

x_freq.known_divisions # is likely False
x_freq.divisions # is likely (None, None, None, None)

由于未知划分是问题，您可以使用第一个示例中的合成数据重新创建问题

x_freq = ddf.clear_divisions().copy()

你可以通过重新设置索引来解决这个问题：

x_freq.reset_index().set_index(index_column_name)

其中 index_column_name 是索引列的名称。

考虑在之后用正确的索引保存数据，这样就不必每次都计算。

注意 1：并行化

顺便说一下，由于您在使用每一列之前计算它，所以您并没有真正利用 dask 的并行化能力。这是一个可以更好地利用并行化的工作流程：

def count_frequency_encoder(s):
    return s.replace(s.value_counts(normalize=True).compute().to_dict())

frequency_columns = {
             f'{col_name}_freq': count_frequency_encoder(x_freq[col_name]) 
             for col_name in x_freq.columns}

x_freq = x_freq.assign(**frequency_columns)

注 2：`to_frame`

一个小技巧：

x_freq[col_name].to_frame()

相当于

x_freq[[col_name]]

将熊猫 df 添加到 dask df

1 个答案:

注意 1：并行化

注 2：`to_frame`

将熊猫 df 添加到 dask df

1 个答案:

注意 1：并行化

注 2：to_frame

注 2：`to_frame`