应用错误收集

如何使用大型Hadoop集群学习

时间：2019-06-28 01:58:36

标签： hadoop

众所周知，学习大数据的最大困难是难以访问大规模数据量和机器，并且只能通过本地虚拟机学习该原理。现在，我可以访问一千多个集群。如何合理利用它？

1 个答案:

答案 0 :(得分：1)

我会相反。大型分布式处理引擎（例如Spark，Flink等）的要点是，您编写的用于处理数据的代码将适用于任意大小的数据集。您可以在具有100条记录的VM或笔记本电脑上执行此操作，并且它的工作原理与在1,000个节点群集上处理1000亿条记录的效果大致相同，前提是您的输入可以轻松并行化并且不会出现严重扭曲。我不确定为什么您没有这么多目标就可以使用许多计算机，但是您可以修改大量公开可用的数据集。

如何在Hadoop集群中配置和使用多主节点？
如何估算Hadoop集群？
（HDFS）如何在群集中安全地复制大数据？
如何在hadoop集群中创建机架
如何使用远程hadoop集群
从未成功构建过大型的hadoop＆amp; spark群集
如何设置联合集群？
如何在hadoop / Spark集群上处理（遍历）大型JSON文件？
如何设置并使用伪Hadoop集群（单节点集群）？
如何使用大型Hadoop集群学习

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？