我正在使用Python进行情绪分析研究,目前我对nltk.probability感到困惑
拉普拉斯估计与预期似然估计之间有什么区别? 这两种情绪分析研究中适当的平滑技术是什么?
以下是NLTK documentation -
的定义拉普拉斯估计的概率分布 用于生成频率分布的实验。 “拉普拉斯 估计“近似计数 c 的样本的概率 N 结果和 B 箱的实验 (C + 1)/(N + B)。这相当于为每个bin添加一个计数,并对结果进行最大似然估计 频率分布。
概率分布的预期似然估计 用于生成频率分布的实验。该 “预期似然估计”近似于a的概率 来自 N 结果的实验的计数 c 的样本 B 区为(c + 0.5)/(N + B / 2)。这相当于为每个bin添加0.5,并采用最大似然估计值 由此产生的频率分布。
答案 0 :(得分:0)
当存在大量可能未被发现的事件时,拉普拉斯技术几乎将所有概率质量分配给之前未见过的数据。 ELE通过使alpha变小来补偿这一点 - 0.5,从而为看不见的事件分配更少的数据。
请查看here了解详情