应用错误收集

我正在学习使用机器学习技术进行垃圾邮件检测，我在Stack上发现的帖子表明我从朴素贝叶斯分类器开始。

我的问题是：如果我测量的属性是谨慎的，而不是连续的，应该如何合并？在Wikipedia的这个例子中，他们正在训练分类器，根据身高，体重和脚的大小来检测男性与女性。如果有第四类“最喜欢的运动”怎么办？在我的假设样本中，假设你有“足球，足球，游泳，滑冰”。这些值是谨慎/枚举的，而不是连续的。你还能用一个天真的贝叶斯分类器吗？我可以将这些值映射到整数（Football = 1，Swimming = 2），但是在高度和重量（5英尺与10英尺非常不同）之类的差异中存在隐含意义，其中没有这样的隐含意义。枚举之间的差异（足球 - 游泳= -1，那么什么？）

基本上，如果我的身高，身高，体型和喜爱的运动值，我还能使用朴素贝叶斯分类器吗？

我可以将朴素贝叶斯分类器与枚举数据一起使用吗？

1 个答案: