考虑您有10GB数据,并且您希望使用Hadoop通过MapReduce程序处理它们。而不是在开始时将所有10GB复制到HDFS然后运行程序,我想复制1GB并开始工作并在此期间逐渐添加剩余的9GB。我想知道Hadoop是否可行。
谢谢, 莫尔塔扎
答案 0 :(得分:3)
不幸的是,MapReduce无法做到这一点。启动MapReduce作业时,部分设置过程是确定输入的块位置。如果输入仅部分存在,则设置过程将仅对这些块起作用,并且不会动态添加输入。
如果您正在寻找流处理器,请查看Apache Storm https://storm.apache.org/或Apache Spark https://spark.apache.org/