我有350个奇数条目的服务记录数据集。其中包含一些详细信息,例如工期(以月为单位)和“涵盖的公里数”以及区域信息。
所有记录都涉及车辆某一特定部分的故障。
我必须预测新车中该零件将持续多长时间(月或千米)。 PS-我无法共享数据。
我该怎么办?
答案 0 :(得分:0)
您必须建立一个回归模型,其中的预测变量为区域/驾驶员/可能的东西,而您的响应则为覆盖的公里数或持续时间。
这应该使您朝正确的方向开始。
从本质上讲,您需要选择一种回归模型,该模型可以安全地对数据建模,而不会受到极端异常值的影响。这将涉及某种形式的正则化或取出看起来似乎“奇怪”的部分数据(使用某种统计信息)
设置模型后,您只需输入新值即可预测覆盖/持续的公里数。
希望这会有所帮助。
干杯!