我想为scikit学习分类器(如SVM)使用不同的文本功能。我想结合像词袋,时间特征等功能。如何组合这些并传递给分类器。
我无法使用FeatureUnion,因为它要求输入数据在所有转换中都相同。
e.g。
tfidf = TfidfVectorizer(strip_accents='ascii',
tokenizer=nltk.tokenize.word_tokenize,
X_feat = tfidf.fit_transform(X_data)
我有其他功能不直接依赖于相同的数据,例如如果句子以Wh Question开头
whqwords = ['who','how','where', 'what', 'why', 'when', 'which','whom']
tokens=nltk.tokenize.word_tokenize(sent)
if (tokens[0] in whqwords) :
features[tokens[0]] = True
现在我如何结合X_feat&功能并传递给分类器?