某些类型的数据集是否不具有预测性?
我自己的现实生活示例:我的目标是为交叉销售保险产品创建预测模型。例如。汽车保险到健康保险。
我的数据集主要包括特征数据,例如他们居住的州,年龄,性别,汽车类型等......
我尝试过各种不同的模型,例如XGboosted Trees来规范逻辑回归,而AUC无法超越.65。
这导致我 - 某些类型的数据集只是不具有预测性吗? 您如何帮助利益相关者理解这一点?
答案 0 :(得分:0)
某些数据集可能不具有很强的预测性。特别是如果你缺少可以解释大部分差异的变量。如果没有与主题专家交谈就很难说是不是这样。尽管如此,模型很好而且很好,但我也会确保你花费大量的时间来设计工程。通常以正确的方式表示数据的时间可能是工作模型和坏模型之间的差异,尤其是在树模型中。