3维数据框的预测建模

时间:2018-07-04 22:39:51

标签: r data-mining data-modeling r-caret

我有一个数据集,其中包含公司过去三年中的所有报价。我想使用R中的库插入符号创建预测模型,以预测报价是被接受还是被拒绝。

数据集的结构给我带来了一些问题。它包含45个变量,但是,我仅包含两个波纹管,因为它们是对该问题很重要的唯一变量。数据集的摘录如下所示。

contract.number     item.id  
0030586792          32X10AVC
0030586792          ZFBBDINING
0030587065          ZSTAIRCL
0030587065          EMS164
0030591125          YCLEANOFF
0030591125          ZSTEPSWC



contract.number <- c("0030586792","0030586792","0030587065","0030587065","0030591125","0030591125")
item.id <- c("32X10AVC","ZFBBDINING","ZSTAIRCL","EMS164","YCLEANOFF","ZSTEPSWC")
dataframe <- data.frame(contract.number,item.id)

每个唯一的合同编号对应一个单引号。 item.id对应于被引用的项目。因此,报价0030586792包括项目32X10AVC和ZFBBDINING。

如果我随机化数据集的顺序并以当前形式对其进行建模,则我担心模型只会了解哪个合同。在训练期间获胜和输掉的号码,这会使我的测试无效,因为在现实世界中,这不是在做出预测之前已知。还有一个问题是,如果模型预测相同的contract.number将与某些item.id一起获胜,而与另一些项目失去联系。

我的理想解决方案是将每个contract.number压缩成一行,每行包含多个item.id,以形成3维数据框。但是我不知道插入符号是否能够对此建模?将item.ids分成多列是不现实的,因为某些引号包含100s的item.id。任何帮助将非常感激! (对不起,如果我讲得不好!)

0 个答案:

没有答案