我手动拾取了一系列功能。并非所有这些都是单个词;其中一些是bigrams,另一些是三卦。我想对我的文本进行建模 - 这些文本是基于这些特征明确地以原始文本的形式提供的。我怎么能在sklearn中做到这一点?到目前为止,这就是我定义Vectorizer的方法。
def initialize():
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 3))
return vectorizer
答案 0 :(得分:3)
CountVectorizer
和TfIdfVectorizer
允许您指定要使用的词汇表。将它们作为关键字参数vocabulary
传递给构造函数。引自docs:
词汇:映射或可迭代,可选
其中键是术语和值的映射(例如,字典) 特征矩阵中的索引,或可迭代的术语。如果不 如果给定,则从输入文档中确定词汇表。