我有一组关于每天生成的潜在客户的数据样本。潜在客户只是表达要求成为我们合作伙伴的用户。样本数据集如下所示
LEADID,CREATEDATE,STATUS,LEADTYPE
810029,24-DEC-17 12.00.00.000000000 AM,open,LeadType1
806136,30-DEC-17 12.00.00.000000000 AM,open,LeadType2
812134,31-DEC-17 12.00.00.000000000 AM,open,LeadType2
806147,31-DEC-17 12.00.00.000000000 AM,open,LeadType1
806166,01-JAN-18 12.00.00.000000000 AM,open,LeadType2
28002,04-MAR-16 12.00.00.000000000 AM,open,LeadType2
808156,01-JAN-18 12.00.00.000000000 AM,open,LeadType1
808162,01-JAN-18 12.00.00.000000000 AM,open,LeadType2
806257,07-JAN-18 12.00.00.000000000 AM,open,LeadType1
832091,17-JAN-18 12.00.00.000000000 AM,open,LeadType2
838079,17-JAN-18 12.00.00.000000000 AM,open,LeadType1
66001,26-MAR-16 12.00.00.000000000 AM,open,LeadType1
70001,28-MAR-16 12.00.00.000000000 AM,open,LeadType2
806019,23-DEC-17 12.00.00.000000000 AM,open,LeadType2
822064,12-JAN-18 12.00.00.000000000 AM,open,LeadType1
834043,14-JAN-18 12.00.00.000000000 AM,open,LeadType2
836053,16-JAN-18 12.00.00.000000000 AM,open,LeadType1
838119,19-JAN-18 12.00.00.000000000 AM,open,LeadType2
正如您所看到的,Lead类型可以是LeadType1或LeadType2,并且每天都会生成。
支持代码如下。注意我只是Python和AI的Noob但我想检查这是否证明了机器学习的有效用例以及我的方法应该是什么
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#%matplotlib inline
in_file = 'lead_data.csv'
mydf = pd.read_csv(in_file,encoding='latin-1')
fig, ax = plt.subplots(figsize=(15,7))
#g = mydf.groupby(['R4GSTATE','LEADTYPE']).count()['STATUS'].unstack()
g = mydf.groupby(['R4GSTATE','STATUS']).count()['LEADTYPE'].unstack()
g.plot(ax=ax)
#ax.set_xlabel('R4GSTATE')
ax.set_xlabel('R4GSTATE')
ax.set_ylabel('Number of Leads')
ax.set_xticks(range(len(g)));
ax.set_xticklabels(["%s" % item for item in g.index.tolist()], rotation=90);
基本上我只是阅读了csv,策划了数据(我已经清理了原来的csv)来保留对我有意义的东西。我还创建了按月计算的线索数量分组,以便我可以看到每个月产生的历史线索。
我想知道机器学习是否能帮助我根据前几个月的数据预测未来几个月产生的潜在客户数量。
如果答案是肯定的话,那么线性回归就是进一步探索的正确途径
答案 0 :(得分:1)
使用基于时间序列的预测技术。
如果您熟悉统计数据并希望花一些时间进行预测,我建议ARIMA
包中的statmodels
简单的选择是使用fbprophet
快速完成工作:https://facebook.github.io/prophet/