我使用Hadoop-Hive分析apache日志到statis访问功能。我编写了一个名为GetCity的UDF来将remote_ip转换为城市名称,但是当我运行“从log_pre中选择GetCity(remote_ip);”时,它非常慢,甚至在数据太大而超过1000个项目时失败。 我试图设置mapred.reduce.tasks = 10,但是jobtracker显示地图总数为1都是相同的。选择时如何设置更多地图?
谢谢!
答案 0 :(得分:0)
执行这样的查询时,“GetCity(remote_ip)”调用始终在mapper上进行。事实上,我怀疑减压器中有什么东西在这里,除了可能是文件串联。您可以通过调用以下命令来控制来自配置单元的映射器中使用的任务数:
SET mapred.map.tasks = 10;
希望这有帮助,
synctree