我有一个数据集,其中包含公司过去三年中的所有报价。我想使用R中的库插入符号创建预测模型,以预测报价是被接受还是被拒绝。
数据集的结构给我带来了一些问题。它包含45个变量,但是,我仅包含两个波纹管,因为它们是对该问题很重要的唯一变量。数据集的摘录如下所示。
contract.number item.id
0030586792 32X10AVC
0030586792 ZFBBDINING
0030587065 ZSTAIRCL
0030587065 EMS164
0030591125 YCLEANOFF
0030591125 ZSTEPSWC
contract.number <- c("0030586792","0030586792","0030587065","0030587065","0030591125","0030591125")
item.id <- c("32X10AVC","ZFBBDINING","ZSTAIRCL","EMS164","YCLEANOFF","ZSTEPSWC")
dataframe <- data.frame(contract.number,item.id)
每个唯一的合同编号对应一个单引号。 item.id对应于被引用的项目。因此,报价0030586792包括项目32X10AVC和ZFBBDINING。
如果我随机化数据集的顺序并以当前形式对其进行建模,则我担心模型只会了解哪个合同。在训练期间获胜和输掉的号码,这会使我的测试无效,因为在现实世界中,这不是在做出预测之前已知。还有一个问题是,如果模型预测相同的contract.number将与某些item.id一起获胜,而与另一些项目失去联系。
我的理想解决方案是将每个contract.number压缩成一行,每行包含多个item.id,以形成3维数据框。但是我不知道插入符号是否能够对此建模?将item.ids分成多列是不现实的,因为某些引号包含100s的item.id。任何帮助将非常感激! (对不起,如果我讲得不好!)