Hadoop:处理逻辑接近数据,而不是接近处理逻辑解释的数据

时间:2017-12-06 00:16:48

标签: hadoop distributed-system

我正在阅读IBM article related to Hadoop,其中一个点是

Hadoop分布式文件系统有很多目标。以下是一些最值得注意的内容:

  

处理接近数据的逻辑,而不是接近处理逻辑的数据

听起来像是一个文字游戏。处理靠近数据的逻辑和接近处理逻辑的数据之间是否有任何区别。

1 个答案:

答案 0 :(得分:1)

有很大的不同。

使处理接近数据意味着在数据实际所在的服务器上运行业务逻辑。

将此数据与接近处理的数据进行比较,可能会查询数据库,并将其与其他系统连接。在这种情况下,数据通过网络发送。

它认为发送代码和库的网络传输开销将远远低于数GB和数TB的数据。

在Hadoop2中,这是由YARN处理的,mapreduce或Spark等进程从进程容器并行运行到datanode进程。