将Apache Pig连接到Hadoop集群

时间:2016-03-13 10:55:59

标签: java hadoop apache-pig

我正在使用Apache Pig与Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是,当我使用Pig在mapreduce模式下运行脚本时,连接到该Hadoop集群时,它始终只启动一个map和一个reduce。如何设置Pig或Hadoop以使用所有32个从属服务器?

工作状态如下所示:

Job Stats (time in seconds):
JobId   Maps    Reduces MaxMapTime  MinMapTime  AvgMapTime  MedianMapTime   MaxReduceTime   MinReduceTime   AvgReduceTime   MedianReducetime    Alias   Feature Outputs
job_1457865367374_0001  1   1   88  88  88  88  27  27  27  27  1-1,access_grouped,access_summed,cleaned,named,raw,timed,timed_grouped,timed_summedMULTI_QUERY  
job_1457865367374_0002  1   1   5   5   5   5   5   5   5   5   access_ordered  SAMPLER 
job_1457865367374_0003  2   1   10  10  10  10  6   6   6   6   density,density_scored  HASH_JOIN   
job_1457865367374_0004  1   1   5   5   5   5   5   5   5   5   timed_ordered   SAMPLER 
job_1457865367374_0005  1   1   5   5   5   5   5   5   5   5   timed_ordered   ORDER_BY    hdfs://master:54310/user/ubuntu/Data/timed_ordered,
job_1457865367374_0006  1   1   5   5   5   5   5   5   5   5   access_ordered  ORDER_BY    hdfs://master:54310/user/ubuntu/Data/access_ordered,
job_1457865367374_0007  1   1   5   5   5   5   5   5   5   5   density_ordered SAMPLER 
job_1457865367374_0008  1   1   5   5   5   5   5   5   5   5   density_ordered ORDER_BY    hdfs://master:54310/user/ubuntu/Data/density_ordered,

b.t.w,我在主机上安装了Apache Pig。

1 个答案:

答案 0 :(得分:0)

SET default_parallel xyz

在猪上面命令给力设置否。并行任务。但hadoop Framework检测不到。 mapper(基于输入拆分的数量)和reducers(可以在custer级别或应用程序级别设置)。你不能设置不。你的应用程序的映射器,但缩减器,你可以。