我是tensorflow的新手。我需要加载数据集来训练我的模型。我的数据集样本看起来像
TRAINING_FILE.iloc[0:5,0:5]
num_var_1 num_var_2 num_var_3 num_var_4 num_var_5
0 -0.010655 0.040182 0.0 1.800000e-07 -0.011319
1 -0.006542 0.157872 0.0 2.105000e-06 -0.010966
2 -0.010626 0.089140 0.0 3.550000e-07 -0.011286
3 -0.010626 0.227239 0.0 1.050000e-06 -0.011159
4 -0.008947 0.160410 0.0 2.105000e-06 -0.010966
我在tensorflow文档中加载了这个带有上述代码的csv文件。这就是我加载训练文件的方式
train_fn = tf.contrib.learn.datasets.base.load_csv_with_header(
filename = TRAINING_FILE,
target_dtype = np.int,
features_dtype= np.float32)
当我编译脚本时,我收到以下错误
追踪(最近一次通话): 文件“train.py”,第31行,in features_dtype = np.float32) 在load_csv_with_header中输入文件“/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/learn/python/learn/datasets/base.py”,第48行 n_samples = int(header [0]) ValueError:int()的基数为10的无效文字:' - 0.0106550312'
答案 0 :(得分:1)
这些看起来都像浮点数,但是load_csv_with_header
正在寻找带有dtype target_dtype
的标签列(在您的情况下为整数)。您可以使用target_column
参数选择此列,但默认情况下它是最后一列。
因此,您需要将标签dtype切换为float(如果您预测实际值),或者为数据添加标签列。