基于2个现有列的值将新列分配(添加)到dask数据帧 - 涉及条件语句

时间:2017-02-13 19:59:40

标签: python pandas dask

我想基于2个现有列的值向现有的dask数据帧添加一个新列,并且涉及一个用于检查空值的条件语句:

DataFrame定义

import pandas as pd
import dask.dataframe as dd

df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, "", 0.345, 0.40, 0.15]})
ddf = dd.from_pandas(df1, npartitions=2)

方法1尝试

def funcUpdate(row):
    if row['y'].isnull():
        return row['y']
    else:
        return  round((1 + row['x'])/(1+ 1/row['y']),4)

ddf = ddf.assign(z= ddf.apply(funcUpdate, axis=1 , meta = ddf))

它出错了:

TypeError: Column assignment doesn't support type DataFrame

方式-2

ddf = ddf.assign(z = ddf.apply(lambda col: col.y if col.y.isnull() else  round((1 + col.x)/(1+ 1/col.y),4),axis = 1, meta = ddf))

知道应该怎么做吗?

2 个答案:

答案 0 :(得分:10)

您可以使用expect(object).to receive(:method).and_call_original (快速),也可以使用fillna(缓慢但灵活)

Fillna

apply

当然在这种情况下,因为如果import pandas as pd import dask.dataframe as dd df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, None, 0.345, 0.40, 0.15]}) ddf = dd.from_pandas(df, npartitions=2) ddf['z'] = ddf.y.fillna((100 + ddf.x)) >>> df x y 0 1 0.200 1 2 NaN 2 3 0.345 3 4 0.400 4 5 0.150 >>> ddf.compute() x y z 0 1 0.200 0.200 1 2 NaN 102.000 2 3 0.345 0.345 3 4 0.400 0.400 4 5 0.150 0.150 为null,则函数使用y,结果也将为null。我假设你并不打算这样做,所以我稍微改变了输出。

使用apply

正如任何熊猫专家都会告诉你的那样,使用y会带来10倍到100倍的减速惩罚。请注意。

话虽如此,灵活性很有用。除了提供不正确的元数据之外,您的示例几乎可以正常工作。你正在告诉应用该函数产生一个数据帧,实际上我认为你的函数是为了生成一个系列。您可以让Dask为您猜测元信息(虽然它会抱怨)或者您可以明确指定dtype。两个选项都显示在下面的示例中:

apply

答案 1 :(得分:1)

我对dask没有任何经验,但是你的布尔测试不会在funcUpdate中将第二个元素捕获为null。使用pandas的空值等于None或NaN / Nan,而不是""。

def funcUpdate(row):
    try:
        return  round((1 + row['x'])/(1+ 1/row['y']),4)
    except:
        return row['y']

是一种可行的解决方法,但您需要事先运行数据验证。