我想知道是否可以使用机器学习检查数字的可分数。 例如 - 假设我想检查可被11和13整除的数字。 我可以创建一个1-500的数字数据集,如果它们可以被11整除则给它们一个标签1,如果它们可以被13整除则给它们2,如果它们不能被它们整除则为0。
以下是我遇到的问题:
对于数字1-500,标签0显然将成为导致偏向的主导标签
即使我保持包含所有标签的相等行的平衡数据集,当我在1-1000上应用算法时,较低范围的数字为0作为标签,中间范围数字为1,较高范围数字为2
想知道我应该怎么做才能训练我的机器?我是否添加了新功能?如果是,那么有什么特点? 如果您认为任何ML算法可行,请建议(已经尝试过KNN,决策树,SVM,Naive_Bayes)
编辑:我知道申请ML不是问题,但我的教授给了我这个任务。我想知道是否可能。答案 0 :(得分:0)
似乎主要的问题是对整数进行编码 - 当然使用整数本身并没有任何意义,所以你需要对它们进行适当的编码。
如果你考虑二进制的整数(从某个范围)它们自然属于适当的向量空间,机器学习算法假设输入是这样的向量。
BTW有些教师在机器学习中使用类似玩具问题的东西,例如Hinton教授的17th slide from this pdf。