让我们假设我已经让患者了解他们的疾病和症状。我想估计 P的概率(疾病 i = TRUE |症状 j = TRUE)。我想我应该使用NB分类器,但是当我只有一种疾病(比如预测心脏病发作的概率)时,我发现的每个例子都应用Naive Bayes。
我的数据如下所示:
patient | disease | if_disease_present | symptom
1 | d1 | TRUE | s1
2 | d1 | FALSE | s2
3 | d2 | TRUE | s1
4 | d3 | TRUE | s4
5 | d4 | FALSE | s8
...
我的想法是根据疾病分割数据并建立天真的贝叶斯模型的数量我的数据中有多少种独特的疾病,但我怀疑它是否是正确的方法。
答案 0 :(得分:0)
如果您想预测疾病,请不要将数据分开。
这是你的目标变量!
但是原样,你的表不适合这个任务。你需要对它进行预处理,可能需要进行一些轮换。