Question

我的问题是在将csv文件输入神经网络之前对其进行预处理。

我想在python 3中使用tflearn为着名的虹膜数据集构建一个深度神经网络。

数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

我使用tflearn加载csv文件。但是，我的数据集的classes列包含iris-setosa，iris-versicolor，iris-virginica等词。

Nueral网络仅适用于数字。所以，我必须找到一种方法来将类从单词更改为数字。由于它是一个非常小的数据集，我可以使用Excel /文本编辑器手动完成。我手动为不同的班级分配了数字。

但是，我无法为我使用的每个数据集执行此操作。所以，我尝试使用pandas来执行一个热编码。

preprocess_data = pd.read_csv("F:\Gautam\.....\Dataset\iris_data.csv")
preprocess_data = pd.get_dummies(preprocess_data)

但现在，我无法使用这段代码：

data, labels = load_csv('filepath', categorical_labels=True,
                     n_classes=3)

＆＃39;文件路径＆＃39;应该只是csv文件的目录，而不是像preprocess_data那样的任何变量。

原始数据集：

     Sepal Length  Sepal Width  Petal Length  Petal Width  Class
89            5.5          2.5           4.0          1.3  iris-versicolor
85            6.0          3.4           4.5          1.6  iris-versicolor
31            5.4          3.4           1.5          0.4  iris-setosa
52            6.9          3.1           4.9          1.5  iris-versicolor
111           6.4          2.7           5.3          1.9  iris-virginica

手动修改的数据集：

     Sepal Length  Sepal Width  Petal Length  Petal Width  Class
89            5.5          2.5           4.0          1.3      1
85            6.0          3.4           4.5          1.6      1
31            5.4          3.4           1.5          0.4      0
52            6.9          3.1           4.9          1.5      1
111           6.4          2.7           5.3          1.9      2

这里我的代码完美运行，但是，我手动修改了数据集。

import numpy as np
import pandas as pd
import tflearn
from tflearn.layers.core import input_data, fully_connected
from tflearn.layers.estimator import regression
from tflearn.data_utils import load_csv


data_source = 'F:\Gautam\.....\Dataset\iris_data.csv'

data, labels = load_csv(data_source, categorical_labels=True,
                         n_classes=3)


network = input_data(shape=[None, 4], name='InputLayer')

network = fully_connected(network, 9, activation='sigmoid', name='Hidden_Layer_1')

network = fully_connected(network, 3, activation='softmax', name='Output_Layer')

network = regression(network, batch_size=1, optimizer='sgd', learning_rate=0.2)

model = tflearn.DNN(network)
model.fit(data, labels, show_metric=True, run_id='iris_dataset', validation_set=0.1, n_epoch=2000)

我想知道在tflearn（或任何其他模块中）是否存在任何其他内置函数，我可以使用它来修改我的类的值从单词到数字。我不认为手动修改数据集会很有效。

我也是tflearn和神经网络的初学者。任何帮助，将不胜感激。感谢。

Answer 1

使用sklearn库中的标签编码器：

from sklearn.preprocessing import LabelEncoder,OneHotEncoder

df = pd.read_csv('iris_data.csv',header=None)
df.columns=[Sepal Length,Sepal Width,Petal Length,Petal Width,Class]

enc=LabelEncoder()
df['Class']=enc.fit_transform(df['Class'])
print df.head(5)

如果你想要One-hot encoding，那么首先你需要labelEncode然后做OneHotEncoding：

enc=LabelEncoder()
enc_1=OneHotEncoder()
df['Class']=enc.fit_transform(df['Class'])
df['Class']=enc_1.fit_transform([df['Class']]).toarray()
print df.head(5)

这些编码器首先按字母顺序对单词进行排序，然后为它们分配标签。如果要查看为哪个类分配了哪个标签，请执行以下操作：

for k in list(enc.classes_) :
   print 'name ::{}, label ::{}'.format(k,enc.transform([k]))

如果要将此数据框保存为csv文件，请执行以下操作：

df.to_csv('Processed_Irisdataset.csv',sep=',')

Answer 2

最简单的解决方案是sudo echo $PATH map所有可能的值：

dict

如果想要通过所有唯一值生成df['Class'] = df['Class'].map({'iris-versicolor': 1, 'iris-setosa': 0, 'iris-virginica': 2}) print (df) Sepal Length Sepal Width Petal Length Petal Width Class 0 89 5.5 2.5 4.0 1.3 1 1 85 6.0 3.4 4.5 1.6 1 2 31 5.4 3.4 1.5 0.4 0 3 52 6.9 3.1 4.9 1.5 1 4 111 6.4 2.7 5.3 1.9 2：

dictionary

预处理csv文件以与tflearn一起使用

2 个答案: