Question

目前正在使用Hadoop学习Apache Pig并使用6200万的庞大数据集。只是尝试执行正常的COUNT函数并不断获取错误。我分配了8g的RAM，我可以很容易地用HIVE做，但似乎得到解析问题或堆分配问题，每次都不同。我在虚拟机上使用hadoop。

错误是：

file script.pig，第3行，第39栏＆gt;无法生成逻辑计划。   嵌套异常：   org.apache.pig.backend.executionengine.ExecException：ERROR 1070：   无法使用导入来解决计数：[，java.lang。，   org.apache.pig.builtin。，org.apache.pig.impl.builtin。]

错误org.apache.pig.PigServer - 解析期间的异常：解析期间出错。无法使用导入来解决计数：[，java.lang。，   org.apache.pig.builtin。，org.apache.pig.impl.builtin。]

错误1070：无法使用导入解决计数：[，java.lang。，org.apache.pig.builtin。，org.apache.pig.impl.builtin。]

错误org.apache.pig.tools.grunt.Grunt - 错误1070：无法使用导入解析计数：[，java.lang。，org.apache.pig.builtin。，   org.apache.pig.impl.builtin。]

我的猪代码

a = LOAD 'bigData_orc' using org.apache.hive.hcatalog.pig.HCatLoader();
b = group a ALL;
c = foreach b generate group as rap, count(a) as counter;
dump c;`

Answer 1

无法解决计数

尝试大写COUNT() Pig函数

Answer 2

我将环境变量重置为原始状态。然后我重置管理员密码，以管理员身份登录，并通过Ambari运行更新的所有环境变量。 Ambari有足够的帮助来拍摄需要更多空间分配的其他变量。能够将我的堆分配高达20GB的RAM＆amp;能够通过Pig计算所有6800万行。

Apache Pig Allocation＆amp;用计数解析问题

2 个答案: