Question

我正在努力在已有的文本数据帧上创建CountVectorizer模型。数据框包含4列，文本相对较长。例如：

Description     Comments         Summary           System Log
text text text  text text text   text text text    text text text

我创建了这个函数，可以分别在每列上很好地工作，但是我不知道如何对所有df一起执行相同的操作：

    vectorizer = CountVectorizer(max_features=1500, max_df = 0.90, min_df = 0.05)
    X = vectorizer.fit_transform(df).toarray()
    tfidfconverter = TfidfTransformer()
    X = tfidfconverter.fit_transform(X).toarray()
    df = pd.DataFrame(X, columns = vectorizer.get_feature_names())

    return df

我想要得到的输出是一个df，看起来像这样：

       able    above   abpwrk  accessor    according   action      activity    actual      without 
0       0.0     0.0     0.0     0.00000     0.0         0.000000    0.0         0.000000    0.000000    
1       0.0     0.0     0.0     0.07126     0.0         0.249390    0.0         0.000000    0.000000

如果我将所有列合并为一列文本，则可以使用此方法，但是有些信息告诉我，必须有一个更智能的解决方案。任何想法？

在多列上执行CountVectorizer

0 个答案: