Question

我有一个代码可以从推文中创建一个单词，并形成其频率矩阵。我想创建一个csv文件，它将我的字典中的每个单词作为列标题，行将是每个推文中单词的频率。

这样的事情：

        Word1  Word2 ..... Wordn
Tweet1    1     0    .....   0
Tweet2    0     0    .....   1

Tweetn    0     1    .....   0

但是我的代码没有实现这种格式，它仍然只给我字典格式。我正在为svm建立一个训练数据集。

代码：

import operator
from collections import defaultdict
from collections import Counter 
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import json
with open('Twidb13.txt', 'w') as file: 
   file.write(json.dumps(sorted_words))
   file.write(count_vect.fit_transform(df.Text).todense())

我有排序形式的单词，因为[[＆＃34; all＆＃34;，0]，[＆＃34; cats＆＃34;，1]，[＆＃34; in＆＃34;，2] ，[＆＃34;我的＆＃34;，3]，[＆＃34;行＆＃34;，4]，[＆＃34; zzzpositive＆＃34;，5]]及其频率分别以矩阵格式表示这[[1 1 1 1 1 1]]。我想把这两者结合起来。

如何在csv文件中打印单词及其频率？

0 个答案: