我在2年前使用过NLTK分类器。现在我想学习使用橙色SVM进行文本分类。橙色教程中SVM的示例是iris.tab:
sepal length sepal width petal length petal width iris
c c c c d
class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
如果我想对文本进行分类,如何准备数据。它是否像下面那样?
token frequency tokenlength
the 23 3
for 21 3
at 10 2
请举例说明不同的数据准备方法。令牌可以在SVM中看作标签,如果没有,怎么做?
非常感谢提前。
答案 0 :(得分:1)
简短回答:不。
答案很长:标签是指您要处理的文件类别。例如,如果您尝试将文档分类为两个类别(例如SPAM和HAM),则标签应为SPAM和HAM。对于数据表示,您可以使用tecnhiques,例如Bag of Words(http://en.wikipedia.org/wiki/Bag_of_words_model)。
有关详细信息,我建议如下: