Question

我有2个训练有素的模型（hdf5）和MNIST数据集中的100个样本（npy）的列表。模型1由50个样本训练，模型2由其他50个样本训练。

现在我的问题是，是否有可能决定由哪个样本训练哪个模型。

我是Python的新手，对如何管理它一无所知。

Answer 1

没有确定的方法可以仅告诉给定的模型和100个数据点。
但是，如果存在过度拟合，您可以进行有根据的猜测。
基本上，如果存在过度拟合，则在“前” 50张图像上训练的模型将在那50张图像上提供比在其他50张“验证”图像上更好的结果。第二个模型也是如此。
所以 ...您可以查看每个模型在50个图像集上的差异，也许，也许，您会看到对每个模型的训练集的一致偏见。
但这只是统计，是基于一些一厢情愿的想法。
祝你好运！

Answer 2

如果您知道如何使用样本（例如，前50个样本用于训练一个模型，另50个样本用于另一个模型），则以下内容可能会对您有所帮助。

训练意味着找到在给定错误中降低成本函数的参数。因此，您只需要测试每个样本中的每个模型。给您带来最小误差的示例就是用于训练该模型的示例。

因此，如果您创建表格的表格

          +----------+----------+
          | model 1  | model 2  |
+---------+----------+----------+
|sample 1 |  e11     | e12      |
+---------+----------+----------+
|sample 2 |  e21     | e22      |
+---------+----------+----------+

在给定列上具有最小值的行是用于训练该列的示例

Answer 3

您能否提供更多信息？看来您正在尝试使用python进行一些机器学习。 -您正在使用哪个图书馆？（火炬，张量流..） -如何在pytorch中将样本馈入网络？例如，您必须实现数据加载器类的版本。

任何一段代码对其他人来说也很有用，以帮助他们了解您想做什么以及您遇到的问题。为了回答这个模糊的问题：通常来说，您可以将训练集（包含N个样本）划分为两个文件夹（一个包含前N / 2个文件夹，另一个包含其余N / 2个文件夹），并使用这两个文件夹为每个网络提供数据不同的子训练集。

如何确定模型是否由样本训练？

3 个答案: