我有2个训练有素的模型(hdf5)和MNIST数据集中的100个样本(npy)的列表。 模型1由50个样本训练,模型2由其他50个样本训练。
现在我的问题是,是否有可能决定由哪个样本训练哪个模型。
我是Python的新手,对如何管理它一无所知。
答案 0 :(得分:0)
没有确定的方法可以仅告诉给定的 模型和100个数据点。
但是,如果存在过度拟合,您可以进行有根据的猜测。
基本上,如果存在过度拟合,则在“前” 50张图像上训练的模型将在那50张图像上提供比在其他50张“验证”图像上更好的结果。第二个模型也是如此。
所以 ...您可以查看每个模型在50个图像集上的差异,也许,也许,您会看到对每个模型的训练集的一致偏见。
但这只是统计,是基于一些一厢情愿的想法。
祝你好运!
答案 1 :(得分:0)
如果您知道如何使用样本(例如,前50个样本用于训练一个模型,另50个样本用于另一个模型),则以下内容可能会对您有所帮助。
训练意味着找到在给定错误中降低成本函数的参数。因此,您只需要测试每个样本中的每个模型。给您带来最小误差的示例就是用于训练该模型的示例。
因此,如果您创建表格的表格
+----------+----------+
| model 1 | model 2 |
+---------+----------+----------+
|sample 1 | e11 | e12 |
+---------+----------+----------+
|sample 2 | e21 | e22 |
+---------+----------+----------+
在给定列上具有最小值的行是用于训练该列的示例
答案 2 :(得分:0)
您能否提供更多信息? 看来您正在尝试使用python进行一些机器学习。 -您正在使用哪个图书馆? (火炬,张量流..) -如何在pytorch中将样本馈入网络?例如,您必须实现数据加载器类的版本。
任何一段代码对其他人来说也很有用,以帮助他们了解您想做什么以及您遇到的问题。 为了回答这个模糊的问题:通常来说,您可以将训练集(包含N个样本)划分为两个文件夹(一个包含前N / 2个文件夹,另一个包含其余N / 2个文件夹),并使用这两个文件夹为每个网络提供数据不同的子训练集。