将函数应用于每个组:TypeError:不可哈希类型:'numpy.ndarray'

时间:2020-09-20 10:04:11

标签: python numpy numpy-ndarray

我正在尝试为每个组绘制一条曲线,并为每个组获取c,a,b的结果。

我这样尝试过:

x=df.T.iloc[1]
y=df.T.iloc[2]

def logifunc(x,c,a,b):
    return c / (1 + (a) * np.exp(-b*(x)))

df.groupby('Seriennummer').apply(curve_fit(logifunc, x, y, p0=[110,400,-2]))

但是我得到了错误:

TypeError:不可散列的类型:'numpy.ndarray'

这是我df的一部分,具有一百万行:

    Seriennummer    mrwSmpVWi   mrwSmpP
1915    701091.0    1.8   4.0
1916    701085.0    2.0   2.0
1917    701089.0    1.7   0.0
1918    701087.0    1.8   3.0
1919    701090.0    1.8   0.0
1920    701088.0    2.4   0.0
1921    701086.0    2.7   5.0
1922    701092.0    1.1   0.0
1923    701085.0    2.0   2.0
1924    701089.0    2.0   10.0
1925    701091.0    0.8   0.0
1926    701087.0    2.3   10.0
1927    701090.0    1.6   1.0
1928    701092.0    2.2   6.0
1929    701086.0    1.5   0.0
1930    701088.0    2.1   3.0

2 个答案:

答案 0 :(得分:1)

代码中的一个奇怪之处是:

  • 尽管您通过 Seriennummer 进行分组,
  • 然后,对于每个组,您尝试执行曲线拟合 完整您的DataFrame中的数据。

要获得正确的结果,应对曲线进行拟合。 仅当前组。像这样:

import scipy.optimize as opt

result = df.groupby('Seriennummer').apply(lambda grp:
    opt.curve_fit(logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2]))

我的 lambda 函数类似于另一个中提到的包装器 答案和其他参数在此功能中进行了硬编码。

由于您的数据样本每组仅包含2行,因此我准备了 我自己的DataFrame:

      Seriennummer  mrwSmpVWi  mrwSmpP
1915      701091.0        1.8      4.0
1916      701091.0        1.6      3.4
1917      701091.0        1.4      3.0
1918      701091.0        1.0      1.5
1919      701091.0        0.8      0.0
1920      701085.0        2.0      2.0
1921      701085.0        2.5      3.0
1922      701085.0        3.0      3.5
1923      701085.0        3.6      4.2

并运行上面的代码,没有错误。

为了以一种易于评估的方式打印结果,我运行:

for k, v in result.iteritems():
    print(f'Group {k:}:\n{v[0]}\n{v[1]}')

获取:

Group 701085.0:
[ 4.66854588 24.45419288  1.47315989]
[[ 3.43664761e-01 -1.05587500e+01 -2.65359878e-01]
 [-1.05587500e+01  4.60108288e+02  1.03214386e+01]
 [-2.65359878e-01  1.03214386e+01  2.40785819e-01]]
Group 701091.0:
[  3.89988734 617.72482118   5.54935645]
[[ 3.42006760e-01 -6.02519226e+02 -1.11651569e+00]
 [-6.02519226e+02  2.43770095e+06  3.83083902e+03]
 [-1.11651569e+00  3.83083902e+03  6.28930797e+00]]

首先对我的数据重复上述过程,然后自行进行。

根据11:03Z的评论进行编辑

阅读 scipy.optimize.curve_fit 的文档。 (每个调用的)结果描述包含:

  • popt -(拟合曲线的)参数的最佳值,
  • pcov2 -popt的估计协方差。

如果您只想为每个组 popt 并且不关心 pcov2 , 那么lambda函数应该只返回其第一个元素 (2个元素)结果:

result = df.groupby('Seriennummer').apply(lambda grp: opt.curve_fit(
    logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2])[0])

(在末尾添加注释[0])。

答案 1 :(得分:0)

一些注意事项:

  1. 请注意,您传递给熊猫 echo '<div">'. htmlentities($bioname).' ALREADY exists!</div>'; 对象的参数实际上是调用GroupBy函数的结果,该函数返回curve_fitndarray的第一个参数是可调用的,需要返回一个熊猫对象(DataFrame,标量系列),这就是您收到该错误的原因。

  2. 我不确定您要做什么,但我认为它正在根据您编写的函数为每个组拟合一条曲线。

如果是这种情况,我建议您将该功能包装到另一个功能中,然后将其传递给apply方法。

GroupBy.apply