众所周知,学习大数据的最大困难是难以访问大规模数据量和机器,并且只能通过本地虚拟机学习该原理。现在,我可以访问一千多个集群。如何合理利用它?
答案 0 :(得分:1)
我会相反。大型分布式处理引擎(例如Spark,Flink等)的要点是,您编写的用于处理数据的代码将适用于任意大小的数据集。您可以在具有100条记录的VM或笔记本电脑上执行此操作,并且它的工作原理与在1,000个节点群集上处理1000亿条记录的效果大致相同,前提是您的输入可以轻松并行化并且不会出现严重扭曲。我不确定为什么您没有这么多目标就可以使用许多计算机,但是您可以修改大量公开可用的数据集。