Rapidminer - 分割具有错误类型值的行

时间:2018-04-28 13:48:55

标签: attributes data-mining rapidminer

我在txt文件中有一个8行的数据集,其中制表符分隔格式没有引号。 我有14列中的5列,日期值为dd.MM.yyyy格式。

问题1 我正在尝试导入该文件。在“格式化您的列”步骤中,如果我选择该列的类型为“日期”,则会出现错误,列中的所有单元格都会变为“?”

所以我选择了“多项式”并计划稍后将属性类型转换为日期。

问题2(真实的) 我导入了数据并放入“名义到日期”操作符。当我跑步时,我在第14.899行遇到错误:

Cannot parse date: Unparseable date: "0"

我找到了这一行,我看到列分隔错了。前一个单元格中的字符串中有一个制表符。因此,值将一个单元格移动了而这一行并不是唯一一个感动的行。

我想将具有错误数据类型值的行拆分为spesified属性。所以我不能手动纠正它们。

我怎样才能在Rapidminer中做到这一点?

还有其他想法来解决这些问题?

2 个答案:

答案 0 :(得分:2)

因此您最有可能需要在此下拉菜单中调整日期格式:

enter image description here

老实说,我通常只是导入多项式,然后在我的过程中转换为日期。它更容易和可重复。

答案 1 :(得分:0)

您似乎输入文件已损坏。

显然,最好的解决方案是修复生成数据的过程。 Espace或替换制表符并以非模糊格式(如ISO日期格式)格式化日期。

假设您无法修复日期,您应该自己编写一个健壮的解析器程序。像rapidminer这样的通用解析器将无法解决所有问题。