我正在使用Azure,即用即付即用。我有自己通过HDInsight创建Spark集群的经验,而且收费超出预期。之后,我搜索了如何以经济的方式使用它,并发现人们通常删除他们的集群以节省成本。我想知道个别用户是否还有其他方式可以使用Spark集群,而且费用很少。我可以使用其他订阅来节省成本吗?提前谢谢。
答案 0 :(得分:1)
使用PowerShell或ARM模板可以自动创建和删除群集。你是对的,这是典型的模式。
你也看一下针对大数据的Azure Data Lake Analytics,但它是一种按查询付费的模型。
答案 1 :(得分:0)
另外:密切关注您的数据集,尤其是您不需要的大数据集。确保你有一个高效的柱状格式进行处理(Parquet,ORC),然后用可分割压缩(bzip2,LZO,snappy)压缩它。
您甚至可能会发现有时重新计算数据集比保留数据集更便宜。
很容易意外地保留比WASB所需的数据更多的数据,即使你的集群出现故障也会占用账单。
最后:确保您的群集被拆除。这里的常见做法,至少对于AWS集群,是使用Jenkins按计划启动/停止集群。看起来Azure自动化适用于Azure。