Question

我有一个与此类似的数据集：

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

让我们说这是三栏。我想提一下，第1列和第2列是文本功能，而不是数字数据。我的输入数据将在category 1中包含15-20种不同的类型。 category 1中的每种类型都可以在category 2中具有一种类型。例如。 X可以输入两次a类型的条目，也可以两次输入b类型的三次＆条目。第三列是输出。我想在这样的数据集上训练模型，最后在训练模型之后，我想传递任何一个category 1和category 2，例如：X和a-这应该给了我1或0的预测输出。我打算为此使用逻辑回归。

问题：

由于我有文本数据，我应该使用假人并为每种类型创建一列吗？（例如，由于我有X，Y，Z，因此我应该创建三个不同的列并分配1或0。
< / li>
我可以为此使用逻辑回归还是不适合我的应用？（我希望获得预测1的概率）

任何建议都会有所帮助。

Answer 1

如果您的分类基于每个类别中的对数奇数，则

Logistic regression适合。对于二进制分类，其结果与可比较的方法相差无几。

是的，您应该使用“虚拟”作为分类数据。这是一种电气设计技术中的“一次热编码”，其中，在任何给定时间，群集中的一根导线都将是“热”（有电流）。对于发布的数据，类别1将具有三列，类别2至少具有四列（a，b，d，f）。

具有文本特征的数据集的逻辑回归

1 个答案: