标签: shuffle google-cloud-dataflow
我有一个很长的文本文件(几百GB)我想改变它的行。我想知道是否有一个很好的方法来使用DataFlow。我想如果我把文件放入并且有一个ParDo运行一个只输出线的DoFn,我会得到一个小的洗牌。但最好是对文件进行更全面的改组。有什么好主意吗?
答案 0 :(得分:1)
对于一个好的随机播放,您可以尝试将每个行与一行键MD5 / CRC / UUID相关联,然后按此键分组。在按功能分组中(假设没有冲突),只输出行。