为什么google cloud点击部署hadoop工作流程需要选择本地永久磁盘的大小,即使您计划使用hadoop连接器进行云存储?默认大小是500 GB ..我在想它是否确实需要一些磁盘它应该小得多。在谷歌云中使用带有hadoop的云存储连接器时,是否存在推荐的持久磁盘大小?
"在Google Cloud Platform上部署Apache Hadoop
Apache Hadoop框架支持跨计算机集群分布式处理大型数据集。
Hadoop将部署在一个集群中。默认部署创建1个主VM实例和2个工作VM,每个VM具有4个vCPU,15 GB内存和500 GB磁盘。创建临时部署协调器VM实例以管理群集设置。
Hadoop群集使用云存储桶作为其默认文件系统,可通过Google云端存储连接器访问。访问Cloud Storage浏览器以查找或创建可在Hadoop部署中使用的存储桶。
Google Compute Engine上的Apache Hadoop 单击以部署Apache Hadoop Apache Hadoop 区 美国central1-A WORKER NODE COUNT
云储存桶 选择一个桶 HADOOP VERSION 1.2.1 MASTER NODE DISK TYPE 标准永久磁盘 MASTER NODE DISK SIZE(GB)
WORKER NODE DISK TYPE 标准永久磁盘 工作节点磁盘尺寸(GB) "
答案 0 :(得分:2)
永久磁盘(PD)的三大用途是:
由于目录的布局,永久磁盘也将用于其他项目,如作业数据(JAR,随应用程序一起分发的辅助数据等),但这些也可以轻松使用启动PD。
由于GCE通过磁盘大小[1]扩展IOPS和吞吐量的方式,更大的永久磁盘几乎总是更好。 500G可能是开始分析您的应用程序和用途的良好起点。如果您不使用HDFS,请发现您的应用程序不会记录太多,并且在随机播放时不会溢出到磁盘,那么较小的磁盘可能会运行良好。
如果您发现自己实际上不想要或不需要任何持久性磁盘,那么bdutil [2]也可以作为命令行脚本存在,可以创建具有更多可配置性和可自定义性的集群。