如果输入样本的张量流代码数是5000000.是否意味着它训练所有这些样本进行训练?我如何分别知道用于培训和测试目的的样品数量?
答案 0 :(得分:0)
您必须选择哪些样本用于培训以及哪些样本用于测试。一般的方法是设置随机70%的样本进行训练,剩下的30%进行测试。这可以很简单地完成:
假设您有一个名为df
的5000000个样本的数据框。来自pandas的sample()
函数将允许您选择可以留出用于训练的随机样本的指定百分比。其余30%将被编入索引并用于测试。
import pandas as pd
train_set = df.sample(frac=0.7)
test_set = df.loc[~data_.index.isin(train_set.index)]
现在您有两个数据框,一个用于培训(3500000个样本),另一个用于测试(1500000个样本)