python:scikit-learn如何组合不同的文本功能,例如弓箭& POS

时间:2014-06-02 20:50:39

标签: python machine-learning scikit-learn nltk

我想为scikit学习分类器(如SVM)使用不同的文本功能。我想结合像词袋,时间特征等功能。如何组合这些并传递给分类器。

我无法使用FeatureUnion,因为它要求输入数据在所有转换中都相同。

e.g。

tfidf = TfidfVectorizer(strip_accents='ascii',
                        tokenizer=nltk.tokenize.word_tokenize,
X_feat = tfidf.fit_transform(X_data)      

我有其他功能不直接依赖于相同的数据,例如如果句子以Wh Question开头

whqwords = ['who','how','where', 'what', 'why', 'when', 'which','whom']

tokens=nltk.tokenize.word_tokenize(sent)
if (tokens[0] in whqwords) :            
            features[tokens[0]] = True

现在我如何结合X_feat&功能并传递给分类器?

0 个答案:

没有答案