我将使用Microsoft Azure ML进行一些文本分析,例如关键字提取,因为我输入的大小很大,我想知道ML包是否实际使用Hadoop(HDP)作为其底层或不?如果没有,我如何将ML与Hadoop结合使用?
Mahout是否有一些文本分析工具?
答案 0 :(得分:4)
Microsoft Azure ML不使用hadoop。它使用自定义后端独立运行实验的每个模块(并且在DAG允许的情况下并行运行)。
Azure ML不是一个软件包,而是一个用于创建和操作ML解决方案的设计工作室。
数据集的大小是多少?
Azure ML目前支持大约6 GB的数据用于培训。
如果您需要预处理数据,建议您使用hdinsight。这也是提取特定功能的好地方。在训练数据样本上使用特征提取模块可以帮助确定关键列。
拥有大量数据绝非易事。我建议您将数据下采样到可能大约512-1演出的小夹头。使用该数据大小确定您的准确度,然后将2x或3x放大到6演出并查看您获得的准确度。