如果输入数据源在HDFS中不断增加,MapReduce作业会发生什么?

时间:2015-06-29 06:37:05

标签: hadoop mapreduce

我们有一个运行HDFS的日志收集代理,也就是说,代理(如Flume)不断收集某些应用程序的日志,然后写入HDFS。读写过程不间断运行,导致HDFS的目标文件不断增加。

这就是问题,因为输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么?

<body>
<form id="form1" runat="server" style="position: relative;">
    <div id="list_of_btns" style="padding-top: 80px; position: fixed;">
        <div class="row" style="position: absolute;">
            <div class="col-md-8 col-md-offset-4" style="position: fixed;">
                <div class="list-group" style="position: fixed;">


                    <div class="radio">
                        <label>
                            <input type="radio" value="male" name="method">male</label>
                    </div>

                    <div class="radio">
                        <label>
                            <input type="radio" value="female" name="method">female</label>
                    </div>



                </div>
            </div>

        </div>
    </div>


    <div class="row" style="padding-top: 80px; position: relative;">
        <div style="position: relative;">

            <asp:LinkButton class="btn btn-info" ID="getStarted_btn" runat="server" OnClick="btn_clicked" Text="Enter" />

        </div>
    </div>
</form>

1 个答案:

答案 0 :(得分:1)

map-reduce作业仅处理一开始可用的数据。

Map-Reduce用于批量数据处理。对于连续数据处理,请使用StormSpark Streaming等工具。