在 Rapidminer 中导入 csv 未在属性/列中正确加载数据并返回错误。
我已在“数据导入向导”中正确设置了参数值。
列分隔设置为逗号,当我检查"使用引号"参数我看到有太多"?"即使实际csv文件中有数据,也会出现在列中。
当我没有选中“使用引号”选项时,我注意到列的内容分布在不同的列中,即数据不会出现在正确的列中。它还会为日期列提供错误。
如何解决这个问题?有什么建议吗?我看了很多 Rapidminer 视频并阅读了相关内容但没有帮助。
我正在尝试导入我从第三方SaaS工具导出的Twitter会话数据,该工具为我们提取Twitter数据。
有人可以尽快帮助我吗?谢谢,Geeta
答案 0 :(得分:1)
在没有看到数据的情况下调试它几乎是不可能的。
use quotes
选项要求每个字段都用双引号括起来。如果您的数据不包含这些数据,请不要使用此项,因为输入过程会将所有内容导入第一个字段。
当您使用逗号作为分隔符时,观察到的行为很可能是因为数据中包含其他逗号。如果数据基于Twitter,这似乎很可能。这会混淆导入,因为它只是在寻找逗号。
通常,如果您可以更改输入数据,请尝试使用无法在原始文本数据中显示的分隔符生成输入数据。好的例子是|
或tab
。如果您可以在字段周围获得引号,这将有所帮助,因为它允许分隔符字符出现在字段中。
可以使用数据格式参数处理日期格式,但我的建议是将日期字段作为多项式导入,然后使用Nominal to Date
运算符将其转换为日期。这样可以提供更多控制,尤其是在输入数据不干净时。