我正在尝试解决一个回归问题,即工厂合并订单中包含的产品。
我有合并工厂用来合并一个订单的总时间。 现在问题来了。
当两种不同数量2的产品合并在一起时,它们需要花费一定的时间才能合并。但是有时订购两种以上不同数量2的产品,而合并工厂正在对此进行合并。
我掌握了工厂合并每个订单所花费的总时间。 要在合并中心合并的产品数可以是1到n之间的任何一个。
如何为模型准备训练数据以了解这一点?
ProductCode ProdQty x1 1 x2 4
上面的示例耗时143小时
ProductCode ProdQty x1 1 x2 4 x3 7
上面的示例现在花了200个小时。
现在,在第一个示例中,合并中心花了143个小时,那里有两个数量不同的两种产品,在第二个示例中,有三个产品参与,花了200个小时。
我如何准备培训数据,以便我的模型能够理解它并可以预测工厂将花费多少时间?
我还有很多其他功能,但这是特定于订单的,但我知道如何处理。
答案 0 :(得分:4)
赞:
x1 x2 x3 x4 ... xn y
1 4 0 0 0 143
1 4 7 0 0 200
在这里,您的因变量y
(每个包装放在一起的时间)是进入该包装的所有x
的数量的函数。您的目标是减少单个数量的包装时间。在训练数据的第一行中,x3
和x4
等值都为零,因为它们没有以该顺序出现(需要143个小时来准备)。在第二行中,x4
,x5
等值都为零,因为它们不按该顺序显示(需要花费200个小时来准备)。
您现在可以对所有y
值进行x
的回归,并且当有人说“我的新阶数为10 x5
,2 x3
和7 x7
,您只需将这三个数字插入估计的方程式,然后得出所需的预测y
。
希望能回答您的数据问题。如果您需要对此结构进行任何澄清或修改,请发表评论。
添加:
如果您有影响包装时间的其他变量,则也可以将它们添加为列。假设您想使用温度,收到订单的时间,工人数量以及仓库经理是谁(刚刚组成)来预测包装时间。您可以这样做:
x1 x2 x3 x4 ... xn temp orderTime workers manager y
1 4 0 0 0 20 5AM 5 John 143
1 4 7 0 0 30 11AM 3 George 200
当然,其中一些新功能将需要实体模型化,分类等。而原始的x
数量只是连续变量。