Question

我们有一个运行HDFS的日志收集代理，也就是说，代理（如Flume）不断收集某些应用程序的日志，然后写入HDFS。读写过程不间断运行，导致HDFS的目标文件不断增加。

这就是问题，因为输入数据不断变化，如果我将收集代理的目标路径设置为作业的输入路径，MapReduce作业会发生什么？

<body>
<form id="form1" runat="server" style="position: relative;">
    <div id="list_of_btns" style="padding-top: 80px; position: fixed;">
        <div class="row" style="position: absolute;">
            <div class="col-md-8 col-md-offset-4" style="position: fixed;">
                <div class="list-group" style="position: fixed;">


                    <div class="radio">
                        <label>
                            <input type="radio" value="male" name="method">male</label>
                    </div>

                    <div class="radio">
                        <label>
                            <input type="radio" value="female" name="method">female</label>
                    </div>



                </div>
            </div>

        </div>
    </div>


    <div class="row" style="padding-top: 80px; position: relative;">
        <div style="position: relative;">

            <asp:LinkButton class="btn btn-info" ID="getStarted_btn" runat="server" OnClick="btn_clicked" Text="Enter" />

        </div>
    </div>
</form>

Answer 1

map-reduce作业仅处理一开始可用的数据。

Map-Reduce用于批量数据处理。对于连续数据处理，请使用Storm或Spark Streaming等工具。

如果输入数据源在HDFS中不断增加，MapReduce作业会发生什么？

1 个答案: