hadoop - 提高Java MapReduce性能的想法

提高Java MapReduce性能的想法

时间：2016-08-12 11:27:29

标签： hadoop mapreduce

我目前正在研究Java MapReduce。我们有一些功能，我们在Java Mapper类中读取每一行，然后对DB进行一些验证。问题是在DB中我们有大约500万条记录。 Mapper的输入文件也可能包含@ 100万的记录。所以我们每行扫描800万条记录。这个过程耗费了大量时间。任何人都可以建议我们是否有更好的方法来改善绩效。

运行多个地图，并行执行（虽然Hadoop Java Map减少了自己这样做）但是看看当前的时间我认为不应该花这么多时间可能是我缺少Java Map reduce等的任何配置。

提前感谢您的帮助。

1 个答案:

答案 0 :(得分：2)

我建议不要在Java代码中验证行，而是使用更严格的SQL WHERE子句来过滤不需要的行。根据行数差异，它应该会给你几个％的性能。

我还建议您对Apache Spark感兴趣，这是更快的Hadoop覆盖。

我的Sql查询非常慢（60秒），任何人都有改进的想法？
Ruby - 如何提高阵列扫描的性能？
寻找有关如何在特定测试中提高groovy性能的想法
如何使用mapreduce
提高Hadoop中MapReduce作业性能的技巧
Hadoop MapReduce - 如何改善并行性
如何提高mongodb map / reduce的性能
如何提高效率？
提高Java MapReduce性能的想法
如何改进代码以返回不成对的元素

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？