我想做类似的事情,但结果必须保存在HDFS的文件中。
在GNU / Linux中,我可以这样做:
shuf path/to/file > path/to/shuffled/file
所以,我试过这个:
hadoop fs -cat path/to/file | shuf > path/to/shuffled/file
但它不起作用。
我试过这个:
hadoop fs -cat path/to/file | shuf | hdfs dfs -appendToFile - path/to/shuffled/file
但是,正如@ cricket-007所说:“注意:这会将整个文件从HDFS下载到本地计算机。请不要尝试使用GB值的数据”
有什么想法吗?