Hadoop和hive优化

时间:2015-12-27 09:49:33

标签: hadoop hive

我需要以下方案的帮助:

1)备注表是配置单元中的源表。     它有5493656359条记录。它的描述如下:

load_ts timestamp
memo_ban bigint
memo_id bigint
sys_creation_date timestamp
sys_update_date timestamp
operator_id bigint
application_id varchar(6)
dl_service_code varchar(5)
dl_update_stamp bigint
memo_date timestamp
memo_type varchar(4)    
memo_subscriber varchar(20)
memo_system_txt varchar(180)
memo_manual_txt varchar(2000)
memo_source varchar(1)
data_dt string
market_cd string

Partition information:
data_dt string
market_cd string

2)

这是目标表

CREATE TABLE IF NOT EXISTS memo_temprushi (
load_ts TIMESTAMP,
ban BIGINT,
attuid BIGINT, 
application VARCHAR(6),
system_note INT,
user_note INT, 
note_time INT, 
date TIMESTAMP)
PARTITIONED BY (data_dt  STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY");

3)

这是源表Memo中的初始加载语句 目标表memo_temprushi。载入所有记录,直到2015-12-14:

SET hive.exec.compress.output=true;
SET mapred.output.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
INSERT INTO TABLE memo_temprushi PARTITION (DATA_DT)
SELECT LOAD_TS,MEMO_BAN, OPERATOR_ID, APPLICATION_ID,
CASE WHEN LENGTH(MEMO_SYSTEM_TXT)=0 THEN 0 ELSE 1 END,
CASE WHEN LENGTH(MEMO_MANUAL_TXT)=0 THEN 0 ELSE 1 END,
HOUR(MEMO_DATE), MEMO_DATE, DATA_DT 
FROM tlgmob_gold.MEMO WHERE LOAD_TS < DATE('2015-12-15');

4)

对于增量加载,我想插入其余的记录,即从2015-12-15开始。我正在使用以下查询:

INSERT INTO TABLE memo_temprushi PARTITION (DATA_DT) 
SELECT MS.LOAD_TS,MS.MEMO_BAN, MS.OPERATOR_ID, MS.APPLICATION_ID, 
CASE WHEN LENGTH(MS.MEMO_SYSTEM_TXT)=0 THEN 0 ELSE 1 END, 
CASE WHEN LENGTH(MS.MEMO_MANUAL_TXT)=0 THEN 0 ELSE 1 END, 
HOUR(MS.MEMO_DATE), MS.MEMO_DATE, MS.DATA_DT 
FROM tlgmob_gold.MEMO MS JOIN (select max(load_ts) max_load_ts from memo_temprushi) mt 
ON 1=1 
WHERE 
ms.load_ts > mt.max_load_ts;

它启动了2个工作岗位。最初它会发出关于舞台是十字架产品的警告。 第一份工作完全很快完成,但第二份工作仍然停留在减少33%。 日志显示:[EventFetcher用于获取Map完成事件] org.apache.hadoop.mapreduce.task.reduce.EventFetcher:EventFetcher被中断..返回 它表明减速器的数量是1。 尝试通过此命令设置mapreduce.job.reduces来增加reducers的数量,但它不起作用。

由于

1 个答案:

答案 0 :(得分:1)

你可以试试这个。

  • 运行&#34;从memo_temprushi&#34;
  • 中选择max(load_ts)max_load_ts
  • 在查询的where条件中添加值,并删除查询的连接条件。

如果有效,那么您可以开发shell脚本,其中第一个查询将获得最大值,然后使用out join运行第二个查询。

以下是示例shell脚本。

max_date=$(hive -e "select max(order_date) from orders" 2>/dev/null)

hive -e "select order_date from orders where order_date >= date_sub('$max_date', 7);"