根据分割签名将文件分割成多个块

时间:2019-05-31 20:07:24

标签: python

我有一个制表符分隔的文件,其中有几列。这些文件需要基于唯一的列组合分为多个块。

col1=value1/col2=value2/col3=value3

根据文件类型,分区签名可能会有所不同。

这是文件中的样本数据集:

1  2019-05-30  123 6 100
1  2019-05-30  123 8 200
1  2019-05-30  456 6 100
1  2019-05-30  456 8 200
1  2019-05-31  123 6 100
2  2019-05-30  123 9 200
2  2019-05-31  456 6 100
3  2019-05-30  123 8 200

以上数据集应分为

1  2019-05-30  123 6 100
1  2019-05-30  123 8 200

1  2019-05-30  456 6 100
1  2019-05-30  456 8 200

1  2019-05-31  123 6 100

2  2019-05-30  123 9 200

2  2019-05-31  456 6 100

3  2019-05-30  123 8 200

上述数据集的分区为

   col1=1/col2=2019-05-30/col3=123
   col1=1/col2=2019-05-30/col3=456
   col1=1/col2=2019-05-31/col3=123

对于实现,可以说下面的方法需要一行。

getRowPartition(tsv_row) 

,并且需要返回这样的签名 col1=1/col2=2019-05-30/col3=123作为行。

我的问题是

1)我应该以哪种格式存储拆分签名,该签名告诉我行应在其上进行分区的列的组合

2)什么是将分块数据存储到其中的良好数据结构。

谢谢!

0 个答案:

没有答案