我开发了一个分析数据集的简单Spark应用程序。分析的数据来自包含200万条记录和25个属性的CSV。该分析涉及RDD的简单转换/动作,我还使用了MLlib库算法。 作为我的第一次体验,我从网上提供的文档或示例中获取了许多代码。但是,例如,为了完全执行用户推荐的简单算法ALS,需要几分钟。 我在笔记本电脑上使用该应用程序(i7 2GHz,12GB RAM)。 我想知道我是否只需要在计算机集群中使用此应用程序来提高性能(就速度而言),如果是这样,在本地运行推荐引擎模型需要很长时间是正常的。 如果是的话,如果有一个良好的计算机集群,我可以实时获得结果吗?
提前致谢!