我可以使用英语以外的语言来训练SVM模型吗?

时间:2018-07-31 10:24:24

标签: python-2.7 machine-learning svm data-science

我正在尝试训练SVM模型,以将字符数据分类为可能包含非英语字符的预定义类。我使用的是词袋方法,已经使用regexp表达式清除了数据并删除了停用词。

使用非英文字符会影响我的模型吗?还是有其他更好的方法来对字符数据进行分类?

我正试图在python 2.7中做到这一点

1 个答案:

答案 0 :(得分:0)

您对“词袋”(BOW)中的“词”部分产生了误导。

即使BOW通常由单词组成,但其初始形式在文本中表示代币。令牌是通过 Tokenization 提取的(请参见Wikipedia):

  

标记化是划分和可能分类的过程   输入字符字符串的各个部分

因此,单个令牌不必一定是单词。它实际上可以是任何字符。因此,它不必是“英文字符”。也可以是kyrill等。但是,根据您的任务,这些标记可能会干扰您的分类。因此,通常在预处理过程中将它们消除。

编辑:一个RegEx排除了除罗马字母,阿拉伯数字和标点符号以外的所有其他字符,可能看起来像:[^ a-zA-Z0-9,。\?\!]。 在RegExr之类的平台上尝试。