应用错误收集

如何同时对大量文件运行mapreduce程序？

时间：2017-11-11 16:57:23

标签： hadoop mapreduce

我正在处理大型数据集并在其上运行Mapreduce程序。我可以轻松地在单个文件上运行Mapreduce，其大小约为3 GB。知道我想在所有文件上运行mapreduce。是否有任何快捷方式或技术可以直接在所有文件上运行mapreduce。使用OS-Ubuntu Hadoop的2.7.1

1 个答案:

答案 0 :(得分：1)

如果您有所有可用文件，请在map-reduce输入参数中指定目录/正则表达式来代替文件名。

示例： bin / hadoop jar wc.jar WordCount / user / joe / wordcount / * .txt / user / joe / wordcount / output

如果您持续获取文件并希望在到达时进行处理。你必须一次又一次地运行map-reduce作业。因为这是批量工作。

相关问题

在Hadoop中具有大量多个输出文件的性能

可以同时运行多少Mapreduce作业

结合大量小文件进行mapreduce输入

QThreadPool可以同时运行大量计算

Mapreduce程序的映射器数量

mapreduce在读取大量csv文件时失败

减少大量GZ文件的Hadoop映射器数量

如何同时对大量文件运行mapreduce程序？

可以同时运行多少减速机？

如何限制映射任务的数量将在每个DataNode上同时运行

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？