如何告诉scikit-learn vectorizer使用特定功能?

时间:2014-02-17 10:53:04

标签: python scikit-learn vectorization

我手动拾取了一系列功能。并非所有这些都是单个词;其中一些是bigrams,另一些是三卦。我想对我的文本进行建模 - 这些文本是基于这些特征明确地以原始文本的形式提供的。我怎么能在sklearn中做到这一点?到目前为止,这就是我定义Vectorizer的方法。

def initialize():
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(ngram_range=(1, 3))
    return vectorizer

1 个答案:

答案 0 :(得分:3)

CountVectorizerTfIdfVectorizer允许您指定要使用的词汇表。将它们作为关键字参数vocabulary传递给构造函数。引自docs

  

词汇:映射或可迭代,可选

     

其中键是术语和值的映射(例如,字典)   特征矩阵中的索引,或可迭代的术语。如果不   如果给定,则从输入文档中确定词汇表。