我真的无法找到如何训练具有非序数的文本特征的svm分类器,并且可以是任何可能的字符串。 我正在使用这样的标记数据集。
Tajmahal |印度| 21-08-1990
现在对于日期我使用toordinal()函数进行训练,但对字符串的特征提取一无所知。
答案 0 :(得分:0)
您应该将字符串列的每个不同值映射到数字标签。然后,为这些标签创建列,并根据该行的相应字符串值的预设值分配0/1 这称为 One Hot Encoding 。你应该结帐Scikit-learn的CategoricalEncoding课程。它完成了大部分工作。