如果我有
的文件{'cat', 'hello cat'}
{'dog', 'hello dog'}
和一句话,
{'hello cat'}
朴素公式是
P(cat|hello,cat)
或
P(cat|hello,cat)=(P(hello|cat) * P(cat|cat) * P(cat)) / (P(hello)*P(cat))
但是,如果不这个词的存在,我该怎么做。
一句话,
{'hello duck'}
我无法使用
P(cat|hello,cat) = (P(hello|cat) * P(duck|cat) * P(cat)) / (P(hello)*P(duck))
因为那将给我一个除零,(如果我事先抓住它,甚至是0)。
如何在没有概率的情况下计算单词的大小写。
我应该选择一个任意小的值吗?