Question

我有一个params的数据框，并为每一行应用一个函数。这个函数本质上是几个sql_queries和结果的简单计算。

我正在尝试利用Dask的多处理，同时保持结构和界面。以下示例有效，并且确实有显着提升：

def get_metrics(row):

    record = {'areaName': row['name'],
              'areaType': row.area_type,
              'borough': row.Borough,
              'fullDate': row['start'],
              'yearMonth': row['start'],
              }


    Q = Qsi.format(unittypes=At,
                   start_date=row['start'],
                   end_date=row['end'],
                   freq='Q',
                   area_ids=row['descendent_ids'])

    sales = _get_DF(Q)
    record['salesInventory'] = len(sales)
    record['medianAskingPrice'] = sales.price.median()
    R.append(record)

R = []
x = ddf.map_partition(lambda x: x.apply(_metric, axis=1), meta={'result': None})
    x.compute()

result2 = pd.DataFrame(R)

但是，当我尝试使用.apply方法时（见下文），它会引发我'DataFrame' object has no attribute 'name' ...

R = list()
y = ddf.apply(_metrics, axis=1, meta={'result': None})

然而，ddf.head（）显示数据框中有name列

Answer 1

如果您的_metric函数的输出是一个Series，也许您应该使用meta=('your series's columns name','output's dtype')

这对我有用。

dask apply：AttributeError：＆＃39; DataFrame＆＃39;对象没有属性＆＃39; name＆＃39;

1 个答案: