sklearn CountVectorizer和熊猫数据框

时间:2020-04-02 17:18:08

标签: python pandas dataframe scikit-learn pipeline

我正在尝试使用CountVectorizer转换包含字符串的数据框。 我的数据框由两列组成,它们都是字符串

df = Dataframe({'text':[string_list], 'type':[type_list]})

现在,我正在尝试使用CountVectorizer来调整和转换第一列。我可以使用以下代码段

X = CountVectorizer(max_features=200).fit_transform(df.text)

但是如果我使用

X = CountVectorizer(max_features=200).fit_transform(df['title'])

在返回仅包含一个实例(即

)的数组的意义上不起作用
X.shape
(1, 200)

而不是我期望的(len(df), 200)

这是一个问题,因为我想使用ColumnTransformer通过以下方式对数据框的两列进行不同的预处理,

ColumnTransformer([
('num', CountVectorizer, ['text']),
('cat', OneHotEncoder(), ['type'])])

,但是由于上述事实,该代码段无效。 您对如何解决此问题有任何建议吗?

0 个答案:

没有答案