如何处理具有未知令牌长度的CSV文件

时间:2017-01-05 04:55:40

标签: scala hadoop cascading scalding

我正在编写一个Scalding作业,以下列格式转换数据:

data = {
    'first_name': $('#first_name').val(),
    'last_name': $('#last_name').val()
}

分为:

Id,Name,Param1,Val1,Param2,Val2....ParamxValx
1,Cat,Hair,White,Eye,Blue...

我的问题是我不知道给定行中可能存在多少Param / Val项目。我知道他们是CSV。如何编写Scalding / MR作业来转换数据?

我读过的所有内容都建议您执行以下操作:

Id,Name,Param,Val 1,Cat,Hair,White 1,Cat,Eye,Blue

但在这种情况下,我需要知道"架构"我的CSV文件,我不知道,因为每行可能有任意多个Param / Val条目。

0 个答案:

没有答案