Question

我刚刚开始学习Python。这是一个数据帧：

a=pd.DataFrame({'A1':[0,1,2,3,2,1,6,0,1,1,7,10]})

现在，我认为该数据遵循多项式分布。因此，12个数字表示12个类别（类别0、1、2 ...）的出现频率。例如，类别0的出现为0。因此，我希望找到给定该数据的多项式所有参数。最后，我们拥有多项式的最佳参数（或者我们可以说每个数字的最佳概率）。例如，

category:    0,      1,     2,     3,      4...
weights:    0.001,  0.1,   0.2,   0.12,   0.2...

因此，我不需要测试数据即可预测。这不是分类。作为一个新手，我什至不确定是否应该使用scipy.stats.multinomial或sklearn模型，或其他一些技术。那么，有人可以给我些帮助吗？

Answer 1

最大似然估计（ MLE ）是获取分布参数点估计的最重要过程之一。这是您需要开始的。

分析解决方案：

跨国发行是二项式分布的扩展，通过分析可以得到 MLE 。有关完整的分析解决方案，请参阅此数学堆栈交换帖子（MLE for Multinomial Distribution）。该过程首先定义似然函数 L（p），条件为观测数据 x（i），其中 p 和 x 是 k 类/类别和 i = 0,1，... k 的概率和观测到的情况。在给定参数集（p）：

的情况下，它是观察一组观测值（x）的可能性的量度

L（p）等于：

主要思想是在参数（p）的范围内最大化似然函数值。给定总观测值 n （即所有类别的出现次数之和），点估计等于：

a.values/a.values.sum()                        # point estimates for p = x/n

# array([[0.        ], [0.02941176], [0.05882353], [0.08823529], 
#        [0.05882353], [0.02941176], [0.17647059], [0.        ], 
#        [0.02941176], [0.02941176], [0.20588235], [0.29411765]])

数字解决方案：

上述结果也可以使用scipy.optimize.minimize来获得。请注意， L（p）是阶乘和指数项的乘积。阶乘项是一个常数，不取决于参数值（p），因此不考虑进行优化。对于指数项，最好执行 log 转换以简化目标函数。 MLE 的常见做法，因为 log 是单调递增函数。另外，由于scipy.optimize.minimize用于最小化（emimization），因此我们将使用对数变换似然函数的负数。 请注意，最大化功能值等于最小化其负值。

import pandas as pd
import numpy as np
import scipy.optimize as sciopt

# bounds for parameters to lie between (0,1), 
# absolute zero (0) for lower bound avoided as log takes an infinite value 
bnds = [(0.001e-12,1) for i in range(12)]

# Initializing parameters value for optimization
init_parameters = np.asarray([0.1 for i in range(12)])

# Negative Log Likelihood Function
neg_log_lik = lambda p: -np.sum([a.values[i]*np.log(p[i]) for i in range(12)])

# Constraint sum(p) = 1
cons = {'type': 'eq', 'fun': lambda p:  (sum([p[i] for i in range(12)]) - 1) }

# Minimizing neg_log_lik
results = sciopt.minimize(neg_log_lik, x0 = init_parameters, 
                          method='SLSQP', bounds= bnds, constraints= cons)

results.x                                    # point estimates for p

#   array([1.00000000e-15, 2.94179308e-02, 5.88243586e-02, 8.82394605e-02,
#          5.88243586e-02, 2.94059735e-02, 1.76454713e-01, 1.00000000e-15,
#          2.94134577e-02, 2.94135714e-02, 2.05849197e-01, 2.94156978e-01])

引用 scipy.optimize.minimize 文档以获取有关上述实现的详细信息。

如何使用python查找已知数据的多项式分布参数？

1 个答案: