我得到了这个Prospects数据集:
ID Company_Sector Company_size DMU_Final Joining_Date Country
65656 Finance and Insurance 10 End User 2010-04-13 France
54535 Public Administration 1 End User 2004-09-22 France
和销售数据集:
ID linkedin_shared_connections online_activity did_buy Sale_Date
65656 11 65 1 2016-05-23
54535 13 100 1 2016-01-12
我想建立一个模型,将潜在客户表中的每个潜在客户分配给客户。该模型将预测潜在客户是否要购买,并返回概率。 Sales表提供有关2015年销售额的信息。我的方法-“买入”列应为模型中的标签,因为1表示该潜在客户在2016年购买,0表示无销售。另一个有趣的栏目是在线活动,范围是5到685。在线活动越高,该产品的前景就越活跃。所以我正在尝试做随机森林模型,然后以某种方式将每个潜在客户的概率放在新的Intent列中。在这种情况下,Random Forest是一种有效的模型吗?也许我应该使用另一个模型。如何将模型结果应用于第一张表中每个潜在客户的新“意图”列。
答案 0 :(得分:1)
首先,请参阅How to ask和On-topic指南。这更多的是咨询,而不是实际或特定的问题。也许更合适的主题是机器学习。
TL; DR:随机森林虽然不错,但由于数据不平衡而似乎不合适。您应该阅读有关推荐系统的信息,以及诸如Wide and Deep
这样的更时尚的高性能模型。答案取决于:您拥有多少数据?推理过程中可用的数据是什么?在客户购买之前,您能否看到潜在销售的当前“ online_activity”属性?许多问题可能会改变适合您任务的整个方法。
建议:
通常来说,这是一种您通常处理非常不平衡的数据的业务-针对大量潜在客户的“ did_buy” = 1数量很少。
在数据科学方面,您应该定义成功的宝贵指标,并尽可能将其直接映射为金钱。在这里,似乎通过做广告或吸引更多可能的客户采取行动可以提高“ did_buy” /“ was_approached”的成功率。加班,如果你增加这个数字,你就会成功。
要考虑的另一件事是您的数据可能稀疏。我不知道您通常会获得多少购买,但可能是您在每个国家/地区等只有1个。这也应考虑在内,因为简单的随机森林可以轻松地针对大多数随机模型中的此列进行定位,过度拟合将成为一个大问题。 决策树遭受数据集不平衡的困扰。但是,通过采用叶子中每个标签的概率而不是做出决定,有时可能对简单的可解释模型有所帮助,并且可以反映出不平衡的数据。老实说,我并不真正相信这是正确的方法。
如果我在哪里:
我首先可以通过以下方式将“前景”列嵌入到向量中:
然后
最后,
当然,除了上述内容之外,还有很多其他功能,但这是您可以发现自己的数据和业务的原因。
希望我能帮上忙!祝你好运。