我有一个制表符分隔的文件,其中有几列。这些文件需要基于唯一的列组合分为多个块。
col1=value1/col2=value2/col3=value3
根据文件类型,分区签名可能会有所不同。
这是文件中的样本数据集:
1 2019-05-30 123 6 100
1 2019-05-30 123 8 200
1 2019-05-30 456 6 100
1 2019-05-30 456 8 200
1 2019-05-31 123 6 100
2 2019-05-30 123 9 200
2 2019-05-31 456 6 100
3 2019-05-30 123 8 200
以上数据集应分为
1 2019-05-30 123 6 100
1 2019-05-30 123 8 200
1 2019-05-30 456 6 100
1 2019-05-30 456 8 200
1 2019-05-31 123 6 100
2 2019-05-30 123 9 200
2 2019-05-31 456 6 100
3 2019-05-30 123 8 200
上述数据集的分区为
col1=1/col2=2019-05-30/col3=123
col1=1/col2=2019-05-30/col3=456
col1=1/col2=2019-05-31/col3=123
对于实现,可以说下面的方法需要一行。
getRowPartition(tsv_row)
,并且需要返回这样的签名
col1=1/col2=2019-05-30/col3=123
作为行。
我的问题是
1)我应该以哪种格式存储拆分签名,该签名告诉我行应在其上进行分区的列的组合
2)什么是将分块数据存储到其中的良好数据结构。
谢谢!