HDFS是否需要与MapReduce一起使用?

时间:2013-08-14 12:12:21

标签: mapreduce hdfs

我们正在探索使用MR来并行化长时间运行的进程。我们所有的数据目前都存在于RDBMS中。我们知道HDFS是MR的基础文件数据存储,但不确定如下:

  • 我们是否必须将所有RDBMS数据移至HDFS才能使用MR?
  • 仅在MR过程的生命周期内这样的举动是永久的还是暂时的?
  • 我们可以使用MR作为其并行功能,而作业仍然可以从传统来源(而不是HDFS)访问数据

2 个答案:

答案 0 :(得分:0)

我认为您不必将所有RDBMS数据移至HDFS以使用MR。让我们来看看Sqoop如何将数据从RDBMS加载到HBase / HDFS。

Sqoop将在[DBInputFormat] 1a connector that allows Hadoop MapReduce programs to read rows from SQL databases)的帮助下通过MapReduce加载数据。

答案 1 :(得分:0)

  • 如果表现&可扩展性是您的首要任务,是的,您必须这样做 将所有数据从RDBMS移动到HDFS以进行有效处理。
  • MR作业处理来自HDFS的数据。数据之后 处理后,您可以通过MR或仅使用HDFS从HDFS导入数据 apis到其他来源。
  • 不,当作业仍然存在时,您无法使用MR作为其并行功能 从传统来源访问数据。 MR作业拆分输入数据 并将其传递给各种地图。有了传统的消息来源 不可能。