tensorflow:加载csv数据文件并训练模型

时间:2017-12-10 07:55:41

标签: python tensorflow

我是tensorflow的新手。我需要加载数据集来训练我的模型。我的数据集样本看起来像

TRAINING_FILE.iloc[0:5,0:5]

    num_var_1   num_var_2   num_var_3   num_var_4   num_var_5
0   -0.010655   0.040182    0.0     1.800000e-07    -0.011319
1   -0.006542   0.157872    0.0     2.105000e-06    -0.010966
2   -0.010626   0.089140    0.0     3.550000e-07    -0.011286
3   -0.010626   0.227239    0.0     1.050000e-06    -0.011159
4   -0.008947   0.160410    0.0     2.105000e-06    -0.010966

我在tensorflow文档中加载了这个带有上述代码的csv文件。这就是我加载训练文件的方式

train_fn = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename = TRAINING_FILE,
    target_dtype = np.int,
    features_dtype= np.float32)

当我编译脚本时,我收到以下错误

  

追踪(最近一次通话):     文件“train.py”,第31行,in       features_dtype = np.float32)     在load_csv_with_header中输入文件“/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/learn/python/learn/datasets/base.py”,第48行       n_samples = int(header [0])   ValueError:int()的基数为10的无效文字:' - 0.0106550312'

1 个答案:

答案 0 :(得分:1)

这些看起来都像浮点数,但是load_csv_with_header正在寻找带有dtype target_dtype的标签列(在您的情况下为整数)。您可以使用target_column参数选择此列,但默认情况下它是最后一列。

因此,您需要将标签dtype切换为float(如果您预测实际值),或者为数据添加标签列。