Question

我有一个电影评论数据集。它具有两列：'class'和'reviews'。我已经完成了大多数常规的预处理工作，例如：降低字符，删除停用词，删除标点符号。在预处理结束时，每个原始评论看起来都像是由空格分隔的单词。

我想使用CountVectorizer，然后使用TF-IDF来创建数据集的特征，以便我可以使用Random Forest进行分类/文本识别。我调查了网站，然后尝试做网站。这是我的代码：

data = pd.read_csv('updated-data ready.csv')
X = data.drop('class', axis = 1)
y = data['class']
vectorizer = CountVectorizer()
new_X = vectorizer.fit_transform(X)
tfidfconverter = TfidfTransformer()  
X1 = tfidfconverter.fit_transform(new_X)
print(X1)

但是，我得到了这个输出...

(0, 0)  1.0

这根本没有意义。我处理了一些参数，并注释掉了有关TF-IDF的部分。这是我的代码：

data = pd.read_csv('updated-data ready.csv')
X = data.drop('class', axis = 1)
y = data['class']
vectorizer = CountVectorizer(analyzer = 'char_wb',  \
                         tokenizer = None, \
                         preprocessor = None, \
                         stop_words = None, \
                         max_features = 5000)

new_X = vectorizer.fit_transform(X)
print(new_X)

这是我的输出：

(0, 4)  1
(0, 6)  1
(0, 2)  1
(0, 5)  1
(0, 1)  2
(0, 3)  1
(0, 0)  2

我想念什么吗？还是我太菜鸟不懂？我所理解和想要的只是/如果我进行了变换，我将收到一个具有这么多功能（关于单词及其频率）加上标签列的新数据集。但是，我得到的却远非如此。

我再说一遍，我想要做的是从评论集中提取一个新的数据集，其中具有数字，单词作为特征，因此Random Forest或其他分类算法可以对它进行任何处理。

谢谢。

顺便说一句，这是我的数据集的前五行：

   class                                            reviews
0      1                         da vinci code book awesome
1      1  first clive cussler ever read even books like ...
2      1                            liked da vinci code lot
3      1                            liked da vinci code lot
4      1            liked da vinci code ultimatly seem hold

Answer 1

假设您碰巧有一个数据框：

data
    class   reviews
0   1   da vinci code book aw...
1   1   first clive cussler ever read even books lik...
2   1   liked da vinci cod...
3   1   liked da vinci cod...
4   1   liked da vinci code ultimatly seem...

分为特征和结果：

y = data['class']
X = data.drop('class', axis = 1)

然后，按照您的管道，您可以为任何ML算法准备数据，如下所示：

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
new_X = vectorizer.fit_transform(X.reviews)
new_X
<5x18 sparse matrix of type '<class 'numpy.int64'>'

此new_X可以“按原样”用于您的其他管道中，也可以转换为密集矩阵：

new_X.todense()
matrix([[1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1],
        [0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1],
        [0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1]],
       dtype=int64)
        with 30 stored elements in Compressed Sparse Row format>

此矩阵中的行表示原始reviews列中的行，而各列表示单词数。如果您对“列”指的是您可能会使用的单词感兴趣，

vectorizer.vocabulary_
{'da': 6,
 'vinci': 17,
 'code': 4,
 'book': 1,
 'awesome': 0,
 'first': 9,
 'clive': 3,
 'cussler': 5,
....

其中key是一个单词，value是上述矩阵中的列索引（实际上，您可以推断该列索引对应于有序词汇表，其中'awesome'负责第0列等等。

您可以像这样进一步处理管道：

tfidfconverter = TfidfTransformer()  
X1 = tfidfconverter.fit_transform(new_X)
X1
<5x18 sparse matrix of type '<class 'numpy.float64'>'
    with 30 stored elements in Compressed Sparse Row format>

最后，您可以将预处理的数据输入到RandomForest：

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(X1, y)

此代码在我的笔记本上运行没有错误。请让我们知道这是否可以解决您的问题！

来自scikit-learn包的CountVectorizer的问题

1 个答案: