在Rapidminer中导入csv无法正确加载数据

时间:2016-02-18 03:45:54

标签: rapidminer

Rapidminer 中导入 csv 未在属性/列中正确加载数据并返回错误。

我已在“数据导入向导”中正确设置了参数值。

列分隔设置为逗号,当我检查"使用引号"参数我看到有太多"?"即使实际csv文件中有数据,也会出现在列中。

当我没有选中“使用引号”选项时,我注意到列的内容分布在不同的列中,即数据不会出现在正确的列中。它还会为日期列提供错误。

如何解决这个问题?有什么建议吗?我看了很多 Rapidminer 视频并阅读了相关内容但没有帮助。

我正在尝试导入我从第三方SaaS工具导出的Twitter会话数据,该工具为我们提取Twitter数据。

有人可以尽快帮助我吗?谢谢,Geeta

1 个答案:

答案 0 :(得分:1)

在没有看到数据的情况下调试它几乎是不可能的。

use quotes选项要求每个字段都用双引号括起来。如果您的数据不包含这些数据,请不要使用此项,因为输入过程会将所有内容导入第一个字段。

当您使用逗号作为分隔符时,观察到的行为很可能是因为数据中包含其他逗号。如果数据基于Twitter,这似乎很可能。这会混淆导入,因为它只是在寻找逗号。

通常,如果您可以更改输入数据,请尝试使用无法在原始文本数据中显示的分隔符生成输入数据。好的例子是|tab。如果您可以在字段周围获得引号,这将有所帮助,因为它允许分隔符字符出现在字段中。

可以使用数据格式参数处理日期格式,但我的建议是将日期字段作为多项式导入,然后使用Nominal to Date运算符将其转换为日期。这样可以提供更多控制,尤其是在输入数据不干净时。