我正在阅读IBM article related to Hadoop,其中一个点是
Hadoop分布式文件系统有很多目标。以下是一些最值得注意的内容:
处理接近数据的逻辑,而不是接近处理逻辑的数据
听起来像是一个文字游戏。处理靠近数据的逻辑和接近处理逻辑的数据之间是否有任何区别。
答案 0 :(得分:1)
有很大的不同。
使处理接近数据意味着在数据实际所在的服务器上运行业务逻辑。
将此数据与接近处理的数据进行比较,可能会查询数据库,并将其与其他系统连接。在这种情况下,数据通过网络发送。
它认为发送代码和库的网络传输开销将远远低于数GB和数TB的数据。
在Hadoop2中,这是由YARN处理的,mapreduce或Spark等进程从进程容器并行运行到datanode进程。