Microsoft Azure机器学习是否使用Hadoop作为其底层?

时间:2015-01-29 00:39:12

标签: azure mahout azure-machine-learning-studio

我将使用Microsoft Azure ML进行一些文本分析,例如关键字提取,因为我输入的大小很大,我想知道ML包是否实际使用Hadoop(HDP)作为其底层或不?如果没有,我如何将ML与Hadoop结合使用?

Mahout是否有一些文本分析工具?

1 个答案:

答案 0 :(得分:4)

Microsoft Azure ML不使用hadoop。它使用自定义后端独立运行实验的每个模块(并且在DAG允许的情况下并行运行)。

Azure ML不是一个软件包,而是一个用于创建和操作ML解决方案的设计工作室。

数据集的大小是多少?

Azure ML目前支持大约6 GB的数据用于培训。

如果您需要预处理数据,建议您使用hdinsight。这也是提取特定功能的好地方。在训练数据样本上使用特征提取模块可以帮助确定关键列。

拥有大量数据绝非易事。我建议您将数据下采样到可能大约512-1演出的小夹头。使用该数据大小确定您的准确度,然后将2x或3x放大到6演出并查看您获得的准确度。