我正在努力在已有的文本数据帧上创建CountVectorizer模型。 数据框包含4列,文本相对较长。 例如:
Description Comments Summary System Log
text text text text text text text text text text text text
我创建了这个函数,可以分别在每列上很好地工作,但是我不知道如何对所有df一起执行相同的操作:
vectorizer = CountVectorizer(max_features=1500, max_df = 0.90, min_df = 0.05)
X = vectorizer.fit_transform(df).toarray()
tfidfconverter = TfidfTransformer()
X = tfidfconverter.fit_transform(X).toarray()
df = pd.DataFrame(X, columns = vectorizer.get_feature_names())
return df
我想要得到的输出是一个df,看起来像这样:
able above abpwrk accessor according action activity actual without
0 0.0 0.0 0.0 0.00000 0.0 0.000000 0.0 0.000000 0.000000
1 0.0 0.0 0.0 0.07126 0.0 0.249390 0.0 0.000000 0.000000
如果我将所有列合并为一列文本,则可以使用此方法,但是有些信息告诉我,必须有一个更智能的解决方案。任何想法?