在内部部署和云上运行Hadoop意味着什么?这是否意味着在内部部署和公共云上都配置了同一个hadoop集群中的节点?
如果我将数据保留在本地但计算在公共云上,我有哪些选择?它可能违背了数据位置很重要的hadoop的基本原则。
哪些混合云提供商提供大数据平台?
答案 0 :(得分:-1)
您可能想看看Alluxio。它基本上是Hadoop兼容的数据层。使用Alluxio,您可以保留本地HDFS数据不变(无需复制数据),而是将其安装到Alluxio(使其可见)。然后,您可以在任何云(EC2,GCP或什至拥有更多计算能力的另一个数据中心)的Alluxio上运行Spark,presto或任何分析工作负载,Alluxio将数据提取到计算中以重新获得数据局部性,这在计算和存储时会完全丢失被分解。并且只有所需的数据会被提取。这对于读取多次读取相同数据的繁重工作负载非常有效。这是一个解释得更多的链接:https://www.alluxio.io/use-cases/hybrid-cloud-analytics/