我有一个代码可以从推文中创建一个单词,并形成其频率矩阵。我想创建一个csv文件,它将我的字典中的每个单词作为列标题,行将是每个推文中单词的频率。
这样的事情:
Word1 Word2 ..... Wordn
Tweet1 1 0 ..... 0
Tweet2 0 0 ..... 1
Tweetn 0 1 ..... 0
但是我的代码没有实现这种格式,它仍然只给我字典格式。我正在为svm建立一个训练数据集。
代码:
import operator
from collections import defaultdict
from collections import Counter
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import json
with open('Twidb13.txt', 'w') as file:
file.write(json.dumps(sorted_words))
file.write(count_vect.fit_transform(df.Text).todense())
我有排序形式的单词,因为[[" all",0],[" cats",1],[" in",2] ,["我的",3],["行",4],[" zzzpositive",5]]及其频率分别以矩阵格式表示这[[1 1 1 1 1 1]]。我想把这两者结合起来。