标签: python-2.7 machine-learning svm data-science
我正在尝试训练SVM模型,以将字符数据分类为可能包含非英语字符的预定义类。我使用的是词袋方法,已经使用regexp表达式清除了数据并删除了停用词。
使用非英文字符会影响我的模型吗?还是有其他更好的方法来对字符数据进行分类?
我正试图在python 2.7中做到这一点
答案 0 :(得分:0)
您对“词袋”(BOW)中的“词”部分产生了误导。
即使BOW通常由单词组成,但其初始形式在文本中表示代币。令牌是通过 Tokenization 提取的(请参见Wikipedia):
标记化是划分和可能分类的过程 输入字符字符串的各个部分
因此,单个令牌不必一定是单词。它实际上可以是任何字符。因此,它不必是“英文字符”。也可以是kyrill等。但是,根据您的任务,这些标记可能会干扰您的分类。因此,通常在预处理过程中将它们消除。
编辑:一个RegEx排除了除罗马字母,阿拉伯数字和标点符号以外的所有其他字符,可能看起来像:[^ a-zA-Z0-9,。\?\!]。 在RegExr之类的平台上尝试。