我是机器学习的新手。我目前正在解决以字符串为目标的分类问题。我已经拆分了测试和训练集,我已经通过OneHotEncoder
转换它来处理字符串属性,并且我使用StandardScaler
来扩展训练集的数字特征。
我的问题是测试集,我是否需要转换仍然是字符串格式的测试集目标,例如我使用OneHotEncoder
训练集的字符串目标,或者我单独保留测试集,分类器将自己完成工作吗?类似地,对于数字属性,我是否必须使用StandardScaler
来缩放测试集中的数字属性,或者一旦在训练集上进行训练,分类器就会自行完成这个?
答案 0 :(得分:0)
对于第一个问题,我会说,您不需要转换它,但它会使测试集上的评估更容易。 您的分类器将输出一个热编码值,您可以将其转换回字符串,并评估这些值,但我认为如果您将测试目标作为0-1s将有所帮助。
对于第二个,您需要在火车组上安装标准分类器,并在测试集上使用(变换)。