如果我的分类变量数量不固定,则无法为我的模型准备训练数据

时间:2019-02-21 16:06:10

标签: machine-learning training-data

我正在尝试解决一个回归问题,即工厂合并订单中包含的产品。

我有合并工厂用来合并一个订单的总时间。 现在问题来了。

当两种不同数量2的产品合并在一起时,它们需要花费一定的时间才能合并。但是有时订购两种以上不同数量2的产品,而合并工厂正在对此进行合并。

我掌握了工厂合并每个订单所花费的总时间。 要在合并中心合并的产品数可以是1到n之间的任何一个。

如何为模型准备训练数据以了解这一点?

 ProductCode ProdQty  

x1           1                

x2           4                

上面的示例耗时143小时

 ProductCode ProdQty  

x1           1                

x2           4     

x3           7           

上面的示例现在花了200个小时。

现在,在第一个示例中,合并中心花了143个小时,那里有两个数量不同的两种产品,在第二个示例中,有三个产品参与,花了200个小时。

我如何准备培训数据,以便我的模型能够理解它并可以预测工厂将花费多少时间?

我还有很多其他功能,但这是特定于订单的,但我知道如何处理。

1 个答案:

答案 0 :(得分:4)

赞:

x1 x2 x3 x4 ... xn y
1  4  0  0      0  143
1  4  7  0      0  200

在这里,您的因变量y(每个包装放在一起的时间)是进入该包装的所有x的数量的函数。您的目标是减少单个数量的包装时间。在训练数据的第一行中,x3x4等值都为零,因为它们没有以该顺序出现(需要143个小时来准备)。在第二行中,x4x5等值都为零,因为它们不按该顺序显示(需要花费200个小时来准备)。

您现在可以对所有y值进行x的回归,并且当有人说“我的新阶数为10 x5,2 x3和7 x7,您只需将这三个数字插入估计的方程式,然后得出所需的预测y

希望能回答您的数据问题。如果您需要对此结构进行任何澄清或修改,请发表评论。


添加:

如果您有影响包装时间的其他变量,则也可以将它们添加为列。假设您想使用温度,收到订单的时间,工人数量以及仓库经理是谁(刚刚组成)来预测包装时间。您可以这样做:

x1 x2 x3 x4 ... xn temp orderTime workers manager y
1  4  0  0      0   20  5AM       5       John    143
1  4  7  0      0   30  11AM      3       George  200

当然,其中一些新功能将需要实体模型化,分类等。而原始的x数量只是连续变量。