数据类型以及Rapidminer如何强调它们

时间:2019-03-06 22:32:51

标签: data-science rapidminer

快速矿工和数据科学领域的新手。

我导入了数据(范围很广,因此花了一些时间对所有数据类型进行分类)。我将数据放在随机森林中,似乎强调了错误的内容。我相信这是由于数据类型分类不正确造成的。我似乎找不到很好的数据类型文档,并且正在寻找关于Rapidminer如何看待它们的解释。

例如,我有一些列的空白为90%,并填充了一些。我将其标记为“标称”,而快速矿工对该栏的加权很高。我希望它能对日期列进行加权,因为我正试图预测周期tmie。...非常感谢任何帮助或见识!

一些可用的数据类型是:
标称
多项式
二项式
日期
文字
等。

1 个答案:

答案 0 :(得分:0)

我不确定100%是否能正确回答您的问题,但是RapidMiner或RandomForest算法都没有强调某种数据类型。 因此,如果该算法在标称列上更加重要,那是因为您的示例与该示例完全分开。

RapidMiner中的不同数据类型允许,禁止某些操作。 典型的例子是电话号码。如果将它们存储为实数,则可能会得到平方根或平均值之类的值,这没有任何意义。因此,将它们存储为String(或Nominal)更有意义。

如果要排除某些属性,可以尝试使用特征选择或降维方法(例如PCA或删除相关的删除无用的运算符。

还可以随时在RapidMiner community forum中提问或重新发布问题。