我有3年的数据,这些数据是国际进口商从各个国家购买原材料的情况。数据包括:
产品代码,买方国家/地区,买方名称,目的港,卖方国家/地区,卖方名称,始发港,单位,价值(美元),单价。
我想预测某个买家是否会在下周进行购买交易。逻辑回归是自然的选择。但是,从数据来看,只有积极的结果,我是否应该平衡既有积极结果又有消极结果的数据?
因此,如果我查看每周预测,是否应该汇总该买方一周的所有交易,并在没有交易的那一周添加负结果行?
答案 0 :(得分:1)
现在这是非常抽象的,因此只能给出抽象的答案。
几乎所有二进制模型都需要两个类都存在于训练数据集中,因此您需要收集更多数据以包含两个类(或者进一步拆分它们以形成更精细的间隔,从而包含两个类,如果是这样的话)你在暗示)。
在建立模型的同时进行交叉验证,以评估模型的性能。