从数据框中提取文本特征

时间:2018-11-06 13:40:32

标签: python dataframe nlp feature-extraction tf-idf

我有带有两个文本字段和其他类似此格式的功能的数据框:

 message            feature_1      feature_2       score        text
 'This is the text'     4             7            10          extra text
 'This is more text'    3             2            8           and this is another text

现在我的目标是预测分数,当尝试将此数据帧转换为特征矩阵以将其输入到我的机器学习模型中时,这就是我所做的:

    # Create vectorizer for function to use
    vectorizer = TfidfVectorizer()
    # combine the numerical features with the TFIDF generated matrix
    X = sp.sparse.hstack( (vectorizer.fit_transform(df.message),
                      df[['feature_1', 'feature_2']].values, vectorizer.fit_transform(df.text)),
                      format='csr')

现在,当打印我的X矩阵的形状时,我得到2x13,但是当我像这样检查X_columsn时:

X_columns = vectorizer.get_feature_names() + df[['feature_1', 'feature_2']].columns.tolist()

我没有在语料库中得到所有的单词,它只是带给我df.text中存在的单词和其他特征属性,而df.message中没有单词。

['and', 'another', 'extra', 'is', 'text', 'this', 'feature_1', 'feature_2']

如何使X包含我所有的数据框功能!!

1 个答案:

答案 0 :(得分:1)

通常,将矢量化程序放在整个文本语料库中以计算词汇量,然后将所有文本转换为矢量。

您要对向量化器进行两次拟合,因此对fit_transform的第二次调用将覆盖第一个,并相应地更新词汇表。尝试先拟合两个文本字段,以计算整个语料库的词汇量,然后转换每个文本字段,如下所示:

from sklearn.feature_extraction.text import TfidfVectorizer
import scipy as sp

vectorizer = TfidfVectorizer()
vectorizer.fit(df.message.append(df.text))
X = sp.sparse.hstack( (vectorizer.transform(df.message),
                 df[['feature_1', 'feature_2']].values, vectorizer.transform(df.text)),
                 format='csr')

X_columns = vectorizer.get_feature_names() + df[['feature_1', 'feature_2']].columns.tolist()

这给了我

X_columns
Out[51]: ['and', 'another', 'extra', 'is', 'more', 'text', 'the', 'this', 'feature_1', 'feature_2']

那是你的追随吗?