我熟悉对具有连续和分类输入的朴素贝叶斯分类器的理解,其中类变量是二进制的。但它如何用于二进制数据输入呢?
Example: (0,0,-), (1,1,+)
其中符号是类变量。
答案 0 :(得分:0)
二进制数据与分类数据基本相同,不是吗?
它有类别0
和1
。
答案 1 :(得分:0)
有一些不同类型的朴素贝叶斯分类器:
高斯:它用于分类,并假设要素遵循正态分布。
多项:用于离散计数。例如,假设我们有文本分类问题。在这里我们可以考虑进一步的bernoulli试验,而不是“在文档中出现的单词”,我们“计算文档中出现单词的频率”,你可以把它想象为“观察到结果数x_i的次数”超过n次试验“。
伯努利:如果您的要素向量是二进制(即零和1),则二项式模型很有用。一个应用程序是使用'bag of words'模型的文本分类,其中1s& 0表示“文档中出现单词”,“文档中不出现单词”。
所以在这里,伯努利将工作并将它们归类为0或1。
有关工作的详细信息,请参阅:https://nlp.stanford.edu/IR-book/html/htmledition/the-bernoulli-model-1.html