我们有一个运行HDFS的日志收集代理,也就是说,代理(如Flume)不断收集某些应用程序的日志,然后写入HDFS。读写过程不间断运行,导致HDFS的目标文件不断增加。
这就是问题,因为输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么?
<body>
<form id="form1" runat="server" style="position: relative;">
<div id="list_of_btns" style="padding-top: 80px; position: fixed;">
<div class="row" style="position: absolute;">
<div class="col-md-8 col-md-offset-4" style="position: fixed;">
<div class="list-group" style="position: fixed;">
<div class="radio">
<label>
<input type="radio" value="male" name="method">male</label>
</div>
<div class="radio">
<label>
<input type="radio" value="female" name="method">female</label>
</div>
</div>
</div>
</div>
</div>
<div class="row" style="padding-top: 80px; position: relative;">
<div style="position: relative;">
<asp:LinkButton class="btn btn-info" ID="getStarted_btn" runat="server" OnClick="btn_clicked" Text="Enter" />
</div>
</div>
</form>
答案 0 :(得分:1)
map-reduce作业仅处理一开始可用的数据。
Map-Reduce用于批量数据处理。对于连续数据处理,请使用Storm或Spark Streaming等工具。