使用Google Cloud Dataflow合并Google云端存储中的文件

时间:2015-05-20 13:45:54

标签: hadoop hdfs google-cloud-storage google-cloud-dataflow lambda-architecture

Nathan Marz在他的书“Big Data”中描述了如何使用HDFS来维护Pail中的数据文件,以及如何优化文件的大小尽可能接近原始HDFS块大小。{{3在Map Reduce之上运行的库。

  1. 是否可以在Google Cloud Storage
  2. 中获得相同的结果
  3. 我可以使用Google Cloud Dataflow代替MapReduce吗?

1 个答案:

答案 0 :(得分:1)

Google云端存储允许使用复合对象,您可以将对象存储在多个部分中,然后将它们组合在一起,最多可以同时限制为32个部分,总共1024个组成部分。 API中提供了此功能。

Composite Objects and Parallel Uploads - Google Cloud Platform Developer's Guide