我有一个与此类似的数据集:
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
让我们说这是三栏。我想提一下,第1列和第2列是文本功能,而不是数字数据。我的输入数据将在category 1
中包含15-20种不同的类型。 category 1
中的每种类型都可以在category 2
中具有一种类型。例如。 X
可以输入两次a
类型的条目,也可以两次输入b
类型的三次&条目。第三列是输出。我想在这样的数据集上训练模型,最后在训练模型之后,我想传递任何一个category 1
和category 2
,例如:X
和a
-这应该给了我1
或0
的预测输出。我打算为此使用逻辑回归。
问题:
由于我有文本数据,我应该使用假人并为每种类型创建一列吗? (例如,由于我有X
,Y
,Z
,因此我应该创建三个不同的列并分配1
或0
。
我可以为此使用逻辑回归还是不适合我的应用? (我希望获得预测1
的概率)
任何建议都会有所帮助。
答案 0 :(得分:3)
Logistic regression适合。对于二进制分类,其结果与可比较的方法相差无几。
是的,您应该使用“虚拟”作为分类数据。这是一种电气设计技术中的“一次热编码”,其中,在任何给定时间,群集中的一根导线都将是“热”(有电流)。对于发布的数据,类别1将具有三列,类别2至少具有四列(a,b,d,f)。