S3和EMRFS有什么区别?

时间:2019-07-14 18:58:41

标签: hadoop amazon-s3 hdfs amazon-emr

我不了解S3广告EMRFS之间的细微差别。我们应该将EMRFS视为允许从Hadoop应用程序向S3写入/从中读取的库和API的集合吗?而且this官方文档也无济于事。

2 个答案:

答案 0 :(得分:2)

EMRFS是一个实现hadoops FileSystem api的库。 EMRFS使S3看起来像hdfs或本地文件系统。然后,Hadoop生态系统中的许多应用程序(例如Spark和Hive)都使用此方法。例如,这就是您使用EMRFS在Spark中读取S3的方式

val df = spark.read.parquet("S3://s3-bucket/path/to/folder/")
df.write.csv("s3://s3-bucket/path/to/output/")

答案 1 :(得分:0)

主要优点是emrfs的一致性。它在内部使用Dynamo db维护一致性。