应用错误收集

时间：2018-07-31 10:24:24

标签： python-2.7 machine-learning svm data-science

我正在尝试训练SVM模型，以将字符数据分类为可能包含非英语字符的预定义类。我使用的是词袋方法，已经使用regexp表达式清除了数据并删除了停用词。

使用非英文字符会影响我的模型吗？还是有其他更好的方法来对字符数据进行分类？

我正试图在python 2.7中做到这一点

答案 0 :(得分：0)

您对“词袋”（BOW）中的“词”部分产生了误导。

即使BOW通常由单词组成，但其初始形式在文本中表示代币。令牌是通过 Tokenization 提取的（请参见Wikipedia）：

标记化是划分和可能分类的过程输入字符字符串的各个部分

因此，单个令牌不必一定是单词。它实际上可以是任何字符。因此，它不必是“英文字符”。也可以是kyrill等。但是，根据您的任务，这些标记可能会干扰您的分类。因此，通常在预处理过程中将它们消除。

编辑：一个RegEx排除了除罗马字母，阿拉伯数字和标点符号以外的所有其他字符，可能看起来像：[^ a-zA-Z0-9，。\？\！]。在RegExr之类的平台上尝试。