在多列上执行CountVectorizer

时间:2019-12-19 16:26:33

标签: python pandas data-science countvectorizer

我正在努力在已有的文本数据帧上创建CountVectorizer模型。 数据框包含4列,文本相对较长。 例如:

Description     Comments         Summary           System Log
text text text  text text text   text text text    text text text

我创建了这个函数,可以分别在每列上很好地工作,但是我不知道如何对所有df一起执行相同的操作:

    vectorizer = CountVectorizer(max_features=1500, max_df = 0.90, min_df = 0.05)
    X = vectorizer.fit_transform(df).toarray()
    tfidfconverter = TfidfTransformer()
    X = tfidfconverter.fit_transform(X).toarray()
    df = pd.DataFrame(X, columns = vectorizer.get_feature_names())

    return df

我想要得到的输出是一个df,看起来像这样:

       able    above   abpwrk  accessor    according   action      activity    actual      without 
0       0.0     0.0     0.0     0.00000     0.0         0.000000    0.0         0.000000    0.000000    
1       0.0     0.0     0.0     0.07126     0.0         0.249390    0.0         0.000000    0.000000    

如果我将所有列合并为一列文本,则可以使用此方法,但是有些信息告诉我,必须有一个更智能的解决方案。任何想法?

0 个答案:

没有答案