张量流程代码中的训练和测试样本数量?

时间:2017-04-09 18:07:34

标签: tensorflow

如果输入样本的张量流代码数是5000000.是否意味着它训练所有这些样本进行训练?我如何分别知道用于培训和测试目的的样品数量?

1 个答案:

答案 0 :(得分:0)

您必须选择哪些样本用于培训以及哪些样本用于测试。一般的方法是设置随机70%的样本进行训练,剩下的30%进行测试。这可以很简单地完成:

假设您有一个名为df的5000000个样本的数据框。来自pandas的sample()函数将允许您选择可以留出用于训练的随机样本的指定百分比。其余30%将被编入索引并用于测试。

import pandas as pd

train_set = df.sample(frac=0.7)
test_set = df.loc[~data_.index.isin(train_set.index)]

现在您有两个数据框,一个用于培训(3500000个样本),另一个用于测试(1500000个样本)