标签: scala apache-spark hadoop akka hdfs
我有一个要求,我要尝试基本上从Google存储中读取目录,并尝试将其写入我的hdfs。我目前创建了一个actor系统,并将spark上下文传递给正在生成的每个actor。唯一的问题是读取和写入仍按顺序进行。反正有解决方法吗?
编辑:
我基本上是想带
gs:// bucket / file1到hdfs:// file1
和
gs:// bucket / file2到hdfs:// file2
两个文件都将使用actor并行传送到。 Actor1复制文件1,Actor2复制文件2。