Question

我有一个.csv文件，条目如下所示：

b0002,0，＆gt; 0.00,3，＆lt; = 0.644，＆lt; = 0.472，＆lt; = 0.690，＆lt; = 0.069672，＆gt; 15.00，＆gt; 21.00，＆gt; 16.00，＆gt; 6.00，＆gt; ; 16.00，＆gt; 21.00，＆gt; 9.00，＆gt; 11.00，＆gt; 20.00，＆gt; 7.00，＆gt; 4.00，＆gt; 9.00，＆gt; 9.00，＆gt; 13.00，＆gt; 8.00，＆gt; 14.00，＆gt; 3.00 ，“（1.00,8.00）”，＆gt; 10.00，＆gt; 9.00，＆gt; 183.00,1

我想使用GaussianNB（）对此进行分类。到目前为止，我设法使用另一个带有数字数据的csv来做到这一点，现在我想使用它但是我被卡住了。

为分类器转换分类数据的最佳方法是什么？

此：

p = read_csv("C:path to\\file.csv")

trainSet = p.iloc[1:20,2:5] //first 20 rows and just 3 attributes
dic = trainSet.transpose().to_dict()

vec = DictVectorizer()
vec.fit_transform(dic)

发出此错误：

Traceback (most recent call last):
  File "\prova.py", line 23, in <module>
vec.fit_transform(dic)
File "\dict_vectorizer.py", line 142, in fit_transform
return self.transform(X)
File "\\dict_vectorizer.py", line 230, in transform
values.append(dtype(v))
TypeError: float() argument must be a string or a number

为分类器转换分类数据的最佳方法是什么？

Answer 1

问题在于转置的数据框＆＃39;在调用dict时返回嵌套.to_dict()。

#create a dummy frame
df = pd.DataFrame({'factor':['a','a','a','b','c','c','c'], 'factor1':['d','a','d','b','c','d','c'], 'num':range(1,8)})

#transpose the dataframe and get the inner dict from to_dict()
feats =df.T().to_dict().values()

from sklearn.feature_extraction import DictVectorizer
Dvec = DictVectorizer()
Dvec.fit_transform(feats).toarray()

解决方案是致电.values()上的dict以获取内部dict

从Dvec获取新的功能名称：

Dvec.get_feature_names()

Scikit-learn DictVectorizer用于分类变量

1 个答案: