如何读取保存在CSV文件中的稀疏矩阵? (Python 3.6.4)

时间:2018-04-11 05:54:00

标签: python csv sparse-matrix

使用countvectorizer,我从数千封电子邮件中提取特征向量并将其保存在CSV文件中

dictionary = open (r'''C:\Users\User\Desktop\csmp3\stemmedDictionary.txt''',"r")
dic = list(set(dictionary.read().splitlines()))
cv = CountVectorizer(vocabulary = dic, binary = True) 
#~PRESENCE FEATURE VECTOR~#
#TRAIN
pdt = open (r'''C:\Users\User\Desktop\csmp3\presence-dataset-training-stemmed.csv''',"w")
matWriter = csv.writer(pdt,delimiter = ',')

for i in range (1,2): #45252
    processed_email = open(r'''C:\Users\User\Desktop\csmp3\processed\processed'''+str(i)+'''.txt''',"r")
    presence_array = cv.transform(processed_email)

    matWriter.writerow(presence_array)
    processed_email.close()
pdt.close()

这是使用朴素贝叶斯项目的垃圾邮件过滤的一部分,我们的数据集相当大。我希望将这个稀疏矩阵用于伯努利朴素贝叶斯的部分拟合方法。我只是无法弄清楚如何从文件中加载稀疏矩阵。我已经尝试了numpy.loadtxt,但它给了我“ValueError:无法将字符串转换为float:”

任何帮助将不胜感激!谢谢!

0 个答案:

没有答案