我试图根据定性调查数据的工作制作分类模型。我们研究了大约10K的客户,因此建立了分段模型,随后每个客户分为8个客户群中的1个。现在的挑战是将TOTAL客户群划分为这些细分市场。由于只有某些客户回复,研究人员使用整体人口统计数据来应用后分层权重(或频率权重)。
我的任务是现在使用我们的客户数据作为此10K的解释变量,以便为整个基础构建分类模型。
为了处理客户权重,我只需按每个相应的频率权重复制每个客户记录,数据集分解为大约72K。然后,我将这些数据分成训练和测试,并使用R插入符包训练GBM,并使用最终选择的模型分类我的保持测试集。
我的准确率达到82%,并认为结果太好了,不可能。在考虑之后我认为问题在于模型无意中看到列车中的记录在测试中完全相同(有些记录可能完全重复多达10次)。
我知道GLM模型函数允许你使用权重参数来引用权重向量,但我的问题是如何在R中使用其他机器学习算法,如GBM或随机森林?
由于