标签: hadoop amazon-s3 hdfs amazon-emr common-crawl
我们正在使用Amazon EMR和commoncrawl来执行抓取。 EMR以类似二进制的格式将输出写入Amazon S3。我们想以原始文本格式将其复制到我们的本地。
我们如何实现这一目标?什么是最好的方式?
通常我们可以hadoop copyToLocal但是我们不能直接访问hadoop并且数据在S3上。