如何为橙色SVM列车准备文本数据?

时间:2011-11-17 14:34:47

标签: python nlp svm orange

我在2年前使用过NLTK分类器。现在我想学习使用橙色SVM进行文本分类。橙色教程中SVM的示例是iris.tab:

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

如果我想对文本进行分类,如何准备数据。它是否像下面那样?

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

请举例说明不同的数据准备方法。令牌可以在SVM中看作标签,如果没有,怎么做?

非常感谢提前。

1 个答案:

答案 0 :(得分:1)

简短回答:不。

答案很长:标签是指您要处理的文件类别。例如,如果您尝试将文档分类为两个类别(例如SPAM和HAM),则标签应为SPAM和HAM。对于数据表示,您可以使用tecnhiques,例如Bag of Words(http://en.wikipedia.org/wiki/Bag_of_words_model)。

有关详细信息,我建议如下: