基本上,我有一个数据集,其中包含一些(207)变量的“权重”,对于确定类变量(二进制),某些变量比其他变量更重要,因此它们更大,等等。最后,所有权重求和跨所有列向上移动,以便为每个观察获得最终的累积权重。 如果此权重更高,则某个数字等于1,否则类变量为1;否则为0。我确实为类变量设置了真实标签,所以问题是要最大限度地减少误报。
问题是,对我来说,这似乎是一个OR问题,因为它涉及寻找最佳权重。但是,我不确定是否有针对此类问题的OR方法,至少我还没有听说过。问题是:有人能识别这种类型的问题并且可以向我发送一些关键字进行研究吗?
当然,另一件事是通过机器学习而不是确定性方法来预测这一点,但是我需要这样做。
谢谢!
答案 0 :(得分:0)
变量是离散的(整数等)还是连续的(浮点数)?
如果它们是离散的,这听起来像背包问题,OptaPlanner(see this training that builds a knapsack solver)这样的约束求解器最擅长。
如果它们是连续的,请寻找LP解算器,例如CPLEX。
无论哪种方式,您都会获得比机器学习方法更好的结果,因为神经网络等擅长于模式识别用例(图像/语音识别,预测,分类等),但始终不如约束优化问题(我想是这样的)。