1)假设我有300个模型,有200种不同的设置来预测 基于全球GDP,外汇,竞争对手增长,新产品发布,即将推出的产品和许多其他条件,市场中X项目的月销售额。
2)模型评估过去一个世纪每个月的销售额并更新其在DB中的条目。比如说,在DB中我们有列Model_name,Settings,Factors_Considered,Success_Probability。
3)由于对过去的数据进行了数据评估,模型的成功/失败百分比 可以在DB中识别和更新。比如说,模型X PC在3月份的销售增长率为10%是0.8
4)但是,没有模型是完美的(概率为1),并且考虑到它所考虑的因素,每个模型在一定程度上都是正确的。假设一种模型考虑GDP,而其他模型则考虑汇率,而另一种模型则考虑该行业的新产品增长。
5)将所有因素考虑到一个模型中是非常复杂的,超级混乱,耗时且所有组合的测试时间都很痛苦。 :(
6)最明智的决定是使用基于模型的数据组合。比如说,如果模型X的概率是0.7,模型Y的概率是0.8。然后评估这些数据的过去组合,并提出一个现实的数字来估计未来的概率 我在这个例子中只考虑了2个模型,但是实时组合可能超过5000个。
7)然而最悲伤的部分是,我无法推断出如何实现这一目标的任何编程逻辑?任何建议/参考都非常感谢。在进行任何编程引用时,读者可以自由地考虑C / C ++ / Java / C#。
请注意,此问题可能被视为背包问题的扩展。
请求您不要投票。问题似乎以循环方式呈现,但不是。如果您觉得任何部分没有组织或需要详细说明,请相应地进行评论。谢谢。
寻求澄清
"设置"之间的差异和" factors_considered"?
让我更好地尝试用一个例子来表达差异。 比如,模型X计算MC唐纳德汉堡的月销量增长或减少。
考虑的因素
X型考虑以下因素。
这些指标可以更准确地从其他来源或代理商处直接采购。这些被认为是一个因素。
设置
但是,所有信息都无法直接获得。但我们根据过去的数据来预测这些值。正如我们预测的那样,我们得到了多个输出。
根据过去5年的一个月说通货膨胀是0.2% 但基于过去3年的一个月通货膨胀率为0.4% 但基于过去1年的一个月通货膨胀率为0.1% 我们不能只考虑长期统计数据,或者我们只能考虑短期统计数据。记住,一切都在循环中移动。 失业率,儿童人口百分比等情况也是如此。
数据评估基于0.2%的通货膨胀率,0.1%的0.4%。这三个被认为是模型的设置,并且进行了所需的预测。
现在,我们有来自确定来源和预测因素的模型值。但哪种组合经常有效?组合可以包括来自20或100个模型的数据。每个型号可能有2或20个设置。