Apache Pig Allocation&用计数解析问题

时间:2016-08-24 18:06:58

标签: java apache-pig hortonworks-sandbox

目前正在使用Hadoop学习Apache Pig并使用6200万的庞大数据集。只是尝试执行正常的COUNT函数并不断获取错误。我分配了8g的RAM,我可以很容易地用HIVE做,但似乎得到解析问题或堆分配问题,每次都不同。我在虚拟机上使用hadoop。

错误是:

  

file script.pig,第3行,第39栏>无法生成逻辑计划。   嵌套异常:   org.apache.pig.backend.executionengine.ExecException:ERROR 1070:   无法使用导入来解决计数:[,java.lang。,   org.apache.pig.builtin。,org.apache.pig.impl.builtin。]

     

错误org.apache.pig.PigServer - 解析期间的异常:解析期间出错。无法使用导入来解决计数:[,java.lang。,   org.apache.pig.builtin。,org.apache.pig.impl.builtin。]

     

错误1070:无法使用导入解决计数:[,java.lang。,org.apache.pig.builtin。,org.apache.pig.impl.builtin。]

     

错误org.apache.pig.tools.grunt.Grunt - 错误1070:无法使用导入解析计数:[,java.lang。,org.apache.pig.builtin。,   org.apache.pig.impl.builtin。]

我的猪代码

a = LOAD 'bigData_orc' using org.apache.hive.hcatalog.pig.HCatLoader();
b = group a ALL;
c = foreach b generate group as rap, count(a) as counter;
dump c;`

2 个答案:

答案 0 :(得分:2)

  

无法解决计数

尝试大写COUNT() Pig函数

答案 1 :(得分:0)

我将环境变量重置为原始状态。然后我重置管理员密码,以管理员身份登录,并通过Ambari运行更新的所有环境变量。 Ambari有足够的帮助来拍摄需要更多空间分配的其他变量。能够将我的堆分配高达20GB的RAM&能够通过Pig计算所有6800万行。