我检查了各种svm分类器,它使用特征/值对格式进行分类。 (我专注于svmlight - http://svmlight.joachims.org/)格式是这样的:
-1 1:0.43 3:0.12 9284:0.2 # abcdef
但是当我以纯文本形式获取用户输入时,要使用svmlight对其进行分类,我需要将纯文本转换为此格式。
怎么做?
答案 0 :(得分:1)
你必须使用一些真正有价值的嵌入。换句话说,你在文本空间中有数据,这或多或少是不同长度的单词序列的空间。有许多方法,一个更好用于一个目的,另一个 - 另一个,最简单的方法包括:
使用scikit-learn的tfidf矢量化工具可以轻松完成前两种方法,请参阅http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html。最后一个需要更复杂的软件。