我有以下dataFrame
mn = pd.DataFrame({'fld1': [2.23, 4.45, 7.87, 9.02, 8.85, 3.32, 5.55],'fld2': [125000, 350000,700000, 800000, 200000, 600000, 500000],'lType': ['typ1','typ2','typ3','typ1','typ3','typ1','typ2'], 'counter': [100,200,300,400,500,600,700]})
映射功能
def getTag(rangeAttribute):
sliceDef = {'tag1': [1, 4], 'tag2': [4, 6], 'tag3': [6, 9],
'tag4': [9, 99]}
for sl in sliceDef.keys():
bounds = sliceDef[sl]
if ((float(rangeAttribute) >= float(bounds[0]))
and (float(rangeAttribute) <= float(bounds[1]))):
return sl
def getTag1(rangeAttribute):
sliceDef = {'100-150': [100000, 150000],
'150-650': [150000, 650000],
'650-5M': [650000, 5000000]}
for sl in sliceDef.keys():
bounds = sliceDef[sl]
if ((float(rangeAttribute) >= float(bounds[0]))
and (float(rangeAttribute) <= float(bounds[1]))):
return sl
我想根据fld1和fld2的标签计算总和。 目前,我必须为不同类型的字段编写具有硬编码值的不同函数。 MAP函数只需要1个参数。除了MAP之外还有其他功能吗? 也可以将sliceDef作为输入参数。
mn.groupby([mn['fld1'].map(getTag),mn['fld2'].map(getTag1),'lType'] ).sum()
答案 0 :(得分:5)
您可以使用pd.cut代替使用地图(感谢帝斯曼和杰夫指出这一点):
import numpy as np
import pandas as pd
mn = pd.DataFrame(
{'fld1': [2.23, 4.45, 7.87, 9.02, 8.85, 3.32, 5.55],
'fld2': [125000, 350000, 700000, 800000, 200000, 600000, 500000],
'lType': ['typ1', 'typ2', 'typ3', 'typ1', 'typ3', 'typ1', 'typ2'],
'counter': [100, 200, 300, 400, 500, 600, 700]})
result = mn.groupby(
[pd.cut(mn['fld1'], [1,4,6,9,99], labels=['tag1', 'tag2', 'tag3', 'tag4']),
pd.cut(mn['fld2'], [100000, 150000, 650000, 5000000],
labels=['100-150', '150-650', '650-5M']),
'lType']).sum()
print(result)
产量
counter fld1 fld2
lType
tag1 100-150 typ1 100 2.23 125000
150-650 typ1 600 3.32 600000
tag2 150-650 typ2 900 10.00 850000
tag3 150-650 typ3 500 8.85 200000
650-5M typ3 300 7.87 700000
tag4 650-5M typ1 400 9.02 800000
这比为系列中的每个值调用getTag
或getTag1
一次更快。相反,pd.cut
使用np.searchsorted只需一次调用即可返回所有索引(此外,searchsorted
使用以C编写的O(log n)二进制搜索用Python编写的O(n)循环。
一个微妙的要点: sliceDef.keys()
返回的密钥不保证按任何特定顺序排列。它甚至可以在运行之间改变(至少在Python3中)。您的标准使用完全封闭的间隔:
if ((float(rangeAttribute) >= float(bounds[0]))
and (float(rangeAttribute) <= float(bounds[1]))):
因此如果rangeAttribute
碰巧落在bounds
中的某个值上,则首先测试哪个键可能很重要。
因此,您当前的代码是非确定性的。
pd.cut
使用半开间隔,因此每个值将分为一个且只有一个类别,从而避免了问题。
回答一般问题:是的,有办法传递额外的参数 - 使用apply而不是map(感谢Andy Hayden指出这一点):
import numpy as np
import pandas as pd
def getTag(rangeAttribute, sliceDef):
for sl in sliceDef.keys():
bounds = sliceDef[sl]
if ((float(rangeAttribute) >= float(bounds[0]))
and (float(rangeAttribute) <= float(bounds[1]))):
return sl
sliceDef = {'tag1': [1, 4], 'tag2': [4, 6], 'tag3': [6, 9],
'tag4': [9, 99]}
sliceDef1 = {'100-150': [100000, 150000],
'150-650': [150000, 650000],
'650-5M': [650000, 5000000]}
mn = pd.DataFrame(
{'fld1': [2.23, 4.45, 7.87, 9.02, 8.85, 3.32, 5.55],
'fld2': [125000, 350000, 700000, 800000, 200000, 600000, 500000],
'lType': ['typ1', 'typ2', 'typ3', 'typ1', 'typ3', 'typ1', 'typ2'],
'counter': [100, 200, 300, 400, 500, 600, 700]})
result = mn.groupby([mn['fld1'].apply(getTag, args=(sliceDef, ))
,mn['fld2'].apply(getTag, args=(sliceDef1, )),
'lType'] ).sum()
print(result)
但是,我不建议使用apply
来解决这个问题,因为pd.cut
更快,更容易使用,并且避免了dict键问题的非确定性顺序。但是知道apply
可以采取额外的位置参数可能会对你有所帮助。