如何确保我的Hadoop节点可以使用RegexSerDe?

时间:2012-06-13 14:26:34

标签: hadoop hive classnotfoundexception elastic-map-reduce

我正在尝试用Hive来解决分析网络日志的问题,我已经看到了很多例子,但我似乎找不到任何有这个特定问题的人。

这就是我所处的位置:我已经建立了一个AWS ElasticMapReduce集群,我可以登录,然后启动Hive。我确保add jar hive-contrib-0.8.1.jar,并说它已加载。我创建了一个名为event_log_raw的表,其中包含一些字符串列和一个正则表达式。 load data inpath '/user/hadoop/tmp overwrite into table event_log_raw,我参加了比赛。 select * from event_log_raw有效(我认为在本地,因为我没有得到地图%和减少%输出),我从我的样本数据中获取了10条记录,正确解析,一切都很好。 select count(*) from event_log_raw也适用,这次创建了mapreduce作业。

我想将request_url字段转换为地图,因此我运行:

select elr.view_time as event_time, elr.ip as ip, 
str_to_map(split(elr.request_url," ")[1],"&","=") as params 
from event_log_raw elr

Mapreduce开火,等待,等待......失败。

FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
MapReduce Jobs Launched: 
Job 0: Map: 1   HDFS Read: 0 HDFS Write: 0 FAIL

我从任务跟踪器检查系统日志,并查看

java.lang.RuntimeException: Error in configuring object
at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
<snip>
Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe
at org.apache.hadoop.hive.ql.exec.MapOperator.setChildren(MapOperator.java:406)
at org.apache.hadoop.hive.ql.exec.ExecMapper.configure(ExecMapper.java:90)
... 22 more
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe

我已经谷歌了,所以这个,但我猜我的google-fu不适合鼻烟。我发现的一切都指向人们遇到麻烦并通过运行add jar命令解决它。我试过了,我已经尝试将它添加到我的hive-site.xml,我尝试在本地使用它,尝试将jar放入s3桶中。尝试添加引导步骤以在引导阶段(灾难)期间添加它。

任何人都可以帮我找出一个。)为什么我的任务节点找不到RegexSerDe,而b。)如何使这个工作?如果他们可能透露的不仅仅是运行add jar

,也欢迎链接

提前致谢!

3 个答案:

答案 0 :(得分:5)

解决这个问题的最简单方法是将所有这些罐子添加到所有任务跟踪器上的hadoop的lib目录中,我们这样做有很多东西:

scp library.jar task-tracker-1:~/<HADOOP_HOME>/lib/

或在引导程序脚本中使用EMR:

s3cmd get s3://path/to/lib.jar /home/hadoop/lib/

当我们使用EMR时,我们只有一个充满jar的s3目录,我们将同步到hadoop lib目录:

s3cmd sync s3://static/jars/ /home/hadoop/jars
cp jars/*.jar lib/

如果您使用oozie,您也可以将jar放在oozie.share.lib目录中。

答案 1 :(得分:0)

我将serde jar文件复制到了

hadoop/lib

目录并重新启动hadoop(甚至是服务器)才能真正起作用。

答案 2 :(得分:-1)

我想你只需要将这个jar文件添加到HIVE_AUX_JARS_PATH变量中 例如。

如果您的hive-contrib-0.8.1.jar位于/usr/hive/lib 然后运行

export HIVE_AUX_JARS_PATH=/usr/hive/lib/hive-contrib-0.8.1.jar:$HIVE_AUX_JARS_PATH

或如果HIVE_AUX_JARS_PATH不存在,只需运行

即可

export HIVE_AUX_JARS_PATH=/usr/hive/lib/hive-contrib-0.8.1.jar

之后启动hive会话,你会看到一切正常。

如果您需要此变量,请根据您的操作系统将此变量永久保存到.profile文件或.bash_profile