Hadoop离线计算的意义

时间:2016-01-13 19:44:03

标签: hadoop

我一直在阅读Hadoop,我读过几次的事情是Hadoop对离线计算很有用。这意味着什么是“离线计算”?

3 个答案:

答案 0 :(得分:2)

术语“在线”和“离线”有时分别与术语“实时”和“批量”同义使用。例如,"online machine learning"指的是随着新的训练数据变得可用而不断发生的学习。相比之下,"offline machine learning"指的是从一批训练数据中学习。

Hadoop擅长批量处理大量数据(通常在相对不频繁的基础上执行,例如每小时执行一次),而不是在数据可用时实时处理。

答案 1 :(得分:1)

on-line computing,用户将等待对其查询的回复,并期望real-timenear real-time中的回复。

offline computing中,用户将在特定时间触发/安排操作,并且不会期望实时响应。操作完成后,他会在一段时间后检查结果。

offline-computing将在大量数据上完成,这可能需要数小时才能完成工作,因此用户对实时响应不感兴趣。他将解雇他忘记计算操作。他将在他自己的时间检查结果。

答案 2 :(得分:0)

AFAIK,“离线计算”就是它所说的。这是一个与Web断开连接的系统(通常出于安全原因)。但它也与可以访问本地数据库的专用服务器有关,因此它们实际上不需要连接到Web,也不想浪费任何资源。

所以我认为您阅读的文档意味着Hadoop非常适合需要处理长时间运行的专用计算的专用服务器,其中CPU是必须的。在这种情况下,“离线”通常与性能有关,而不是安全性。