我正在尝试为每个组绘制一条曲线,并为每个组获取c,a,b的结果。
我这样尝试过:
x=df.T.iloc[1]
y=df.T.iloc[2]
def logifunc(x,c,a,b):
return c / (1 + (a) * np.exp(-b*(x)))
df.groupby('Seriennummer').apply(curve_fit(logifunc, x, y, p0=[110,400,-2]))
但是我得到了错误:
TypeError:不可散列的类型:'numpy.ndarray'
这是我df的一部分,具有一百万行:
Seriennummer mrwSmpVWi mrwSmpP
1915 701091.0 1.8 4.0
1916 701085.0 2.0 2.0
1917 701089.0 1.7 0.0
1918 701087.0 1.8 3.0
1919 701090.0 1.8 0.0
1920 701088.0 2.4 0.0
1921 701086.0 2.7 5.0
1922 701092.0 1.1 0.0
1923 701085.0 2.0 2.0
1924 701089.0 2.0 10.0
1925 701091.0 0.8 0.0
1926 701087.0 2.3 10.0
1927 701090.0 1.6 1.0
1928 701092.0 2.2 6.0
1929 701086.0 1.5 0.0
1930 701088.0 2.1 3.0
答案 0 :(得分:1)
代码中的一个奇怪之处是:
要获得正确的结果,应对曲线进行拟合。 仅当前组。像这样:
import scipy.optimize as opt
result = df.groupby('Seriennummer').apply(lambda grp:
opt.curve_fit(logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2]))
我的 lambda 函数类似于另一个中提到的包装器 答案和其他参数在此功能中进行了硬编码。
由于您的数据样本每组仅包含2行,因此我准备了 我自己的DataFrame:
Seriennummer mrwSmpVWi mrwSmpP
1915 701091.0 1.8 4.0
1916 701091.0 1.6 3.4
1917 701091.0 1.4 3.0
1918 701091.0 1.0 1.5
1919 701091.0 0.8 0.0
1920 701085.0 2.0 2.0
1921 701085.0 2.5 3.0
1922 701085.0 3.0 3.5
1923 701085.0 3.6 4.2
并运行上面的代码,没有错误。
为了以一种易于评估的方式打印结果,我运行:
for k, v in result.iteritems():
print(f'Group {k:}:\n{v[0]}\n{v[1]}')
获取:
Group 701085.0:
[ 4.66854588 24.45419288 1.47315989]
[[ 3.43664761e-01 -1.05587500e+01 -2.65359878e-01]
[-1.05587500e+01 4.60108288e+02 1.03214386e+01]
[-2.65359878e-01 1.03214386e+01 2.40785819e-01]]
Group 701091.0:
[ 3.89988734 617.72482118 5.54935645]
[[ 3.42006760e-01 -6.02519226e+02 -1.11651569e+00]
[-6.02519226e+02 2.43770095e+06 3.83083902e+03]
[-1.11651569e+00 3.83083902e+03 6.28930797e+00]]
首先对我的数据重复上述过程,然后自行进行。
阅读 scipy.optimize.curve_fit 的文档。 (每个调用的)结果描述包含:
如果您只想为每个组 popt 并且不关心 pcov2 , 那么lambda函数应该只返回其第一个元素 (2个元素)结果:
result = df.groupby('Seriennummer').apply(lambda grp: opt.curve_fit(
logifunc, grp.mrwSmpVWi, grp.mrwSmpP, p0=[110, 400, -2])[0])
(在末尾添加注释[0]
)。
答案 1 :(得分:0)
一些注意事项:
请注意,您传递给熊猫 echo '<div">'. htmlentities($bioname).' ALREADY exists!</div>';
对象的参数实际上是调用GroupBy
函数的结果,该函数返回curve_fit
。 ndarray
的第一个参数是可调用的,需要返回一个熊猫对象(DataFrame,标量系列),这就是您收到该错误的原因。
我不确定您要做什么,但我认为它正在根据您编写的函数为每个组拟合一条曲线。
如果是这种情况,我建议您将该功能包装到另一个功能中,然后将其传递给apply方法。
GroupBy.apply