我有一套产品。每种产品都是不存在的“父母”的变体。此外,每个产品(我们称之为子产品)在我们的数据库中都有自己的单独分配价格。这是一个小例子集。
父母SKU为1000。
产品儿童:
1000-TankTop-SM - 14.95
1000-TankTop-2X - 17.95
1000-Hoodie-SM - 34.95
1000-Hooodie-2X - 39.95
这是问题所在。我们的数据库以一对一的关系列出每个真实的儿童产品价格(如上所述)。每个产品都有一个SKU,我可以通过SKU查看每个产品的价格。我有一个不能支持这种定价方法的网站。定价的方式就是这样。我创建了一个“父”产品。每个母产品必须具有基本价格。变化的价格是通过增加或减去美元金额来创建的。所以“父”有两个属性集,产品类型和大小。必须将加号或减号与每个属性相关联。所以从我上面的例子中我们得到了。
尺寸:
SM +- ?
2X +- ?
产品类型:
TankTop +- ?
Hoodie += ?
如何确定上述变量应至少等于实际儿童产品价格?这可能没有任何极端异常值吗?
答案 0 :(得分:2)
这听起来像一个令人沮丧的(即:糟糕的)数据库系统,因为它实际上不可能创建某些任意价格。即:
TankTop = + $2.00
Shirt = + $1.00
Sweat = + $5.00
Small = - $1.00
Medium = + $0.00
Large = + $3.00
X-Large = + $5.00
根据上面的例子,小型衬衫不可能花费10.00美元,同时中型衬衫的价格为10.50美元。
因此,每种产品的价格定义为:BASE_SKU_PRICE + SIZE_MODIFIER + STYLE_MODIFIER
。这意味着您无法为每个唯一项目分配任意价格值,因此您需要使用回归模型。
如果要重新调整大量项目的价格,最简化异常值的最简单方法是线性最小均方误差近似(LMS)的多变量变化,is just another type of multivariate linear regression approach。
这将允许您将每个唯一项目(即:SKU)建模为以下函数:
y = a + bX_1 + cX_2
如果您想要一个非常整洁的方法来处理生产数据库系统,最好只使用MATLAB或SPSS来创建数据库表,因为您可以指定置信区间和其他参数来帮助优化近似值
最后,I found an example online which you could try out in OpenOffice Calc or Microsoft Excel。这将为您提供一种有效的算法方法,而不是您必须导出分析形式方程并从中生成代码。甚至可能足以解决您的问题,而不必打破MATLAB或SPSS。