在没有标题的csv上使用google-refine,每条记录使用不同数量的列

时间:2013-10-10 16:57:16

标签: openrefine

我正在尝试导入open-refine从NoSQL数据库(Cassandra)中提取的csv,不带标题,每个记录的列数不同。

例如,字段以逗号分隔,可能如下所示:

1 - userid:100456, type:specific, status:read, feedback:valid
2 - userid:100456, status:notread, message:"some random stuff here but with quotation marks", language:french

列数最多,名称不需要清理。

如何使用数据透视表编制一个可以挖掘的大型Excel文件?

1 个答案:

答案 0 :(得分:1)

如果您可以获得JSON,Refine将直接获取它。

如果那不可能,我可能会采取以下措施:

  1. 导入为文本行
  2. 分为两列,其中包含行ID和字段
  3. 使用逗号作为分隔符
  4. 在字段列上拆分多值单元格
  5. 使用冒号作为单独的
  6. 将字段列拆分为两列
  7. 在这两列上使用键/值展开成列