我正在尝试使用CountVectorizer转换包含字符串的数据框。 我的数据框由两列组成,它们都是字符串
df = Dataframe({'text':[string_list], 'type':[type_list]})
现在,我正在尝试使用CountVectorizer来调整和转换第一列。我可以使用以下代码段
X = CountVectorizer(max_features=200).fit_transform(df.text)
但是如果我使用
X = CountVectorizer(max_features=200).fit_transform(df['title'])
在返回仅包含一个实例(即
)的数组的意义上不起作用X.shape
(1, 200)
而不是我期望的(len(df), 200)
。
这是一个问题,因为我想使用ColumnTransformer
通过以下方式对数据框的两列进行不同的预处理,
ColumnTransformer([
('num', CountVectorizer, ['text']),
('cat', OneHotEncoder(), ['type'])])
,但是由于上述事实,该代码段无效。 您对如何解决此问题有任何建议吗?