我在Azure上使用HDInsight来研究在Hadoop上排名机器学习方法(学习排名,为内部人员)的可扩展性。我设法测试运行我在HDInsight群集上学习排名算法的实现,并花时间完成操作。
现在,我希望使用不同数量的内核一遍又一遍地运行相同的代码,以查看运行时间如何根据内核数量进行扩展。从本论坛的其他问题我了解到HDInsight不允许更改群集的核心数量。是否可以以某种方式删除当前群集,然后创建一个新群集,使用Azure存储上完全相同的容器?我尝试通过简单地为新集群提供与前一集群相同的名称来实现这一点(因为为新集群创建的容器在创建时自动以集群命名),但这不适用于新容器为此新集群创建的集群名称将附加“-1”。我试图处理的数据文件大小约为15GB,如果我需要将此文件上传到我创建的每个集群的集群容器中,那将是一个真正的痛苦。
任何有关如何使用不同数量的内核在HDInsight上运行我的算法而不必为每个测量点重新上传输入数据的任何帮助都将非常感激!
亲切的问候,
Niek Tax
答案 0 :(得分:1)
您应该可以将现有存储容器链接到HDInsight群集根据http://azure.microsoft.com/en-us/documentation/articles/hdinsight-use-blob-storage/#benefits
使用自定义创建,您可以使用默认存储帐户的以下选项之一:
- 使用现有存储空间
- 创建新存储空间
- 使用其他订阅的存储空间。
您还可以选择创建自己的Blob容器或使用现有容器。
该链接显示了如何通过Windows Azure门户执行此操作。