我正在尝试预测是否使用开放版本播放歌曲,使用python,滑雪套件学习和LinearSVC方法。
我的输入数据:
我已经将产品列编码为1和0(如果不是则打开0,则为1)。
像上下文这样的东西会对产品类型产生影响。我想知道是否需要为LinearSVC制作所有分类变量来处理它们。答案 0 :(得分:2)
通常,将分类特征转换为连续特征是次优解决方案。
当使用支持向量机作为分类器(甚至逻辑回归)时,处理0-1编码的分类特征应该没有问题。如果您的分类功能无法转换为二进制(例如,您的“上下文”列),我建议您对数据进行单热编码(请先参阅here。
如果特定功能的太多唯一条目,则可能会出现问题。在这种情况下,单热编码将产生与唯一条目一样多的功能,这可能在计算上很昂贵。