使用数据流在文本文件中随机播放行的好方法

时间:2015-03-12 18:19:03

标签: shuffle google-cloud-dataflow

我有一个很长的文本文件(几百GB)我想改变它的行。我想知道是否有一个很好的方法来使用DataFlow。我想如果我把文件放入并且有一个ParDo运行一个只输出线的DoFn,我会得到一个小的洗牌。但最好是对文件进行更全面的改组。有什么好主意吗?

1 个答案:

答案 0 :(得分:1)

对于一个好的随机播放,您可以尝试将每个行与一行键MD5 / CRC / UUID相关联,然后按此键分组。在按功能分组中(假设没有冲突),只输出行。