使用countvectorizer,我从数千封电子邮件中提取特征向量并将其保存在CSV文件中
dictionary = open (r'''C:\Users\User\Desktop\csmp3\stemmedDictionary.txt''',"r")
dic = list(set(dictionary.read().splitlines()))
cv = CountVectorizer(vocabulary = dic, binary = True)
#~PRESENCE FEATURE VECTOR~#
#TRAIN
pdt = open (r'''C:\Users\User\Desktop\csmp3\presence-dataset-training-stemmed.csv''',"w")
matWriter = csv.writer(pdt,delimiter = ',')
for i in range (1,2): #45252
processed_email = open(r'''C:\Users\User\Desktop\csmp3\processed\processed'''+str(i)+'''.txt''',"r")
presence_array = cv.transform(processed_email)
matWriter.writerow(presence_array)
processed_email.close()
pdt.close()
这是使用朴素贝叶斯项目的垃圾邮件过滤的一部分,我们的数据集相当大。我希望将这个稀疏矩阵用于伯努利朴素贝叶斯的部分拟合方法。我只是无法弄清楚如何从文件中加载稀疏矩阵。我已经尝试了numpy.loadtxt,但它给了我“ValueError:无法将字符串转换为float:”
任何帮助将不胜感激!谢谢!