谷歌云点击部署hadoop

时间:2014-11-23 14:03:22

标签: hadoop google-cloud-storage google-cloud-platform google-hadoop

为什么google cloud点击部署hadoop工作流程需要选择本地永久磁盘的大小,即使您计划使用hadoop连接器进行云存储?默认大小是500 GB ..我在想它是否确实需要一些磁盘它应该小得多。在谷歌云中使用带有hadoop的云存储连接器时,是否存在推荐的持久磁盘大小?

"在Google Cloud Platform上部署Apache Hadoop

Apache Hadoop框架支持跨计算机集群分布式处理大型数据集。

Hadoop将部署在一个集群中。默认部署创建1个主VM实例和2个工作VM,每个VM具有4个vCPU,15 GB内存和500 GB磁盘。创建临时部署协调器VM实例以管理群集设置。

Hadoop群集使用云存储桶作为其默认文件系统,可通过Google云端存储连接器访问。访问Cloud Storage浏览器以查找或创建可在Hadoop部署中使用的存储桶。

Google Compute Engine上的Apache Hadoop 单击以部署Apache Hadoop Apache Hadoop 区 美国central1-A WORKER NODE COUNT

云储存桶 选择一个桶 HADOOP VERSION 1.2.1 MASTER NODE DISK TYPE 标准永久磁盘 MASTER NODE DISK SIZE(GB)

WORKER NODE DISK TYPE 标准永久磁盘 工作节点磁盘尺寸(GB) "

1 个答案:

答案 0 :(得分:2)

永久磁盘(PD)的三大用途是:

  • 日志,守护进程和作业(或YARN中的容器)
    • 如果启用了调试日志记录,这些可能会变得非常大,并且可能导致每秒多次写入
  • MapReduce shuffle
    • 这些可能很大,但从更高的IOPS和吞吐量中获益更多
  • HDFS(图像和数据)

由于目录的布局,永久磁盘也将用于其他项目,如作业数据(JAR,随应用程序一起分发的辅助数据等),但这些也可以轻松使用启动PD。

由于GCE通过磁盘大小[1]扩展IOPS和吞吐量的方式,更大的永久磁盘几乎总是更好。 500G可能是开始分析您的应用程序和用途的良好起点。如果您不使用HDFS,请发现您的应用程序不会记录太多,并且在随机播放时不会溢出到磁盘,那么较小的磁盘可能会运行良好。

如果您发现自己实际上不想要或不需要任何持久性磁盘,那么bdutil [2]也可以作为命令行脚本存在,可以创建具有更多可配置性和可自定义性的集群。

  1. https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/
  2. https://cloud.google.com/hadoop/