逻辑回归和词袋

时间:2021-02-18 00:20:10

标签: python machine-learning nlp statistics data-science

据我所知,X1 是一个词的出现,而 beta1 是该词的权重。我的问题是关于如何计算重量?基于什么?

1 个答案:

答案 0 :(得分:0)

这有点困难,因为我不知道你到底想做什么。但总的来说,您有数据为您提供 X。和一个结果。结果应该是伯努利分布的。这意味着只有两种结果是可能的。现在您从 X 计算概率。例如,您想知道文本是否是关于汤姆汉克斯的。如果文本中包含单词“Tom”,则您的 x1 为 1。 X 还可以描述“Tom”在文本中出现的频率。您尝试选择一个 Beta,以便 beta1*x1 中的 sogmoid 函数返回文本与“Tom Hanks”有关的正确概率。如果文本中出现“汤姆”一词。为了计算 beta normaly,使用了一些机器学习算法,例如梯度下降。我把它简化了一点以获得这个想法。我认为 this 解释得很好。最后,您会从数据中获得一个模型,该模型可以预测新数据的结果,而您只知道 X。