rapidminer格式化具有许多参数的数据集

时间:2013-07-25 17:57:00

标签: classification modeling prediction rapidminer

将过多的参数放入示例集中的问题。

我的问题是我拥有一个具有唯一ID的客户,他们有参数(二项式),我想预测某些目标变量的值,到目前为止只有一个但可能是多个。 在我的测试用例中,我使用了以下输入数据集,参见元数据,每个客户都在一行中表示,参数在列中 - 只是通常的方式。

元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
label - 目标 - 二项式
常规 - Para1 - 二项式 常规 - Para2 - 二项式
常规 - Para3 - 二项式 常规 - Para4 - 二项式 数据集:
* Customer_Id - 目标 - Para1 - Para2 - Para3 - Para4 *
1 - M - 1 - 0 - 1 - 0
2 - V - 1 - 0 - 0 - 1
3 - M - 0 - 1 - 1 - 1

=>使用NaïveBayes,我在尺寸有限的测试用例中获得了很好的预测结果。

实际数据集出现问题: 我有大约10万个参数,而且这个数字正在增长很多。客户的实际活动参数数量非常小,因此表格非常大且稀疏。所以我的想法是使用以下数据集格式作为输入:
元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
label - 目标 - 二项式
regular - ActivePara - 多项式
数据:
* Customer_Id - 目标 - ActivePara *
1 - M - Para1
1 - M - Para3
2 - V - Para1
2 - V - Para4
3 - M - Para2
3 - M - Para3
3 - M - Para4

但是现在我没有得到每个客户的一致预测,我得到的就是这样的

* Customer_Id - 目标 - ActivePara - 目标预测
1 - M - Para1 - V
1 - M - Para3 - M
2 - V - Para1 - V
2 - V - Para4 - V
3 - M - Para2 - M
3 - M - Para3 - M
3 - M - Para4 - V

但我希望/需要每个customer_id的目标预测保持一致。

如何设置输入数据/模型以获得结果!

提前感谢任何提示和帮助!!!

1 个答案:

答案 0 :(得分:0)

这是由于问题的过度简化。您已将多个属性转换为一个多边形属性,因此对于朴素的贝叶斯来说,它是一个可以采用多个值的单个属性,它无法考虑活动参数的共同出现。

我会建议更好的选择来管理您的模型。最适合你的结构是

* Customer_Id - 目标 - 第1段 - 第2段 - 第3段 - 第4段* 1 - M - 1 - 0 - 1 - 0

将此更改为 * Customer_Id - 目标 - (数字=所有参数的二进制表示的十进制值)

如果你有3个参数 p1 p2 p3 1 1 0

然后十进制值110(二进制)是6.

这应该有帮助