使用非序数文本功能训练svm分类器

时间:2018-03-11 10:25:39

标签: python scikit-learn

我真的无法找到如何训练具有非序数的文本特征的svm分类器,并且可以是任何可能的字符串。 我正在使用这样的标记数据集。

  

Tajmahal |印度| 21-08-1990

现在对于日期我使用toordinal()函数进行训练,但对字符串的特征提取一无所知。

1 个答案:

答案 0 :(得分:0)

您应该将字符串列的每个不同值映射到数字标签。然后,为这些标签创建列,并根据该行的相应字符串值的预设值分配0/1 这称为 One Hot Encoding 。你应该结帐Scikit-learn的CategoricalEncoding课程。它完成了大部分工作。