将文件存储到S3:本地文件与HDFS

时间:2016-09-23 16:59:43

标签: java linux hadoop amazon-s3 hdfs

背景

使用带有轻微扭曲的java将文件上传到s3的简单老问题

S3不支持流式传输(AFAIK),因此在上传之前需要将数据分组为一些适当大小的文件。

在创建上述临时文件时,就位置而言,有一些选项

  1. 在某些指定目录中本地
  2. 在HDFS本地(如果可能的话,我甚至不知道Hadoop的H)
  3. 到hadoop群集中的HDFS
  4. 问题

    1. 哪一个可能会更快?
    2. 使用HDFS(本地或群集)与本地FS相比是否有优势,HDFS本质上更接近S3格式?
    3. 技术和基础设施

      EC2,linux,java

1 个答案:

答案 0 :(得分:1)

如果本地有足够的磁盘空间,只需在本地进行即可。否则,您可以将数据合并到HDFS上所需的存储中,然后上载它们。但是,HDFS不应该是你的第一个度假胜地。