如何在csv文件中打印单词及其频率?

时间:2017-12-28 06:54:38

标签: python csv twitter machine-learning sentiment-analysis

我有一个代码可以从推文中创建一个单词,并形成其频率矩阵。我想创建一个csv文件,它将我的字典中的每个单词作为列标题,行将是每个推文中单词的频率。

这样的事情:

        Word1  Word2 ..... Wordn
Tweet1    1     0    .....   0
Tweet2    0     0    .....   1

Tweetn    0     1    .....   0

但是我的代码没有实现这种格式,它仍然只给我字典格式。我正在为svm建立一个训练数据集。

代码:

import operator
from collections import defaultdict
from collections import Counter 
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import json
with open('Twidb13.txt', 'w') as file: 
   file.write(json.dumps(sorted_words))
   file.write(count_vect.fit_transform(df.Text).todense())  

我有排序形式的单词,因为[[" all",0],[" cats",1],[" in",2] ,["我的",3],["行",4],[" zzzpositive",5]]及其频率分别以矩阵格式表示这[[1 1 1 1 1 1]]。我想把这两者结合起来。

0 个答案:

没有答案