Question

我需要以下方案的帮助：

1）备注表是配置单元中的源表。它有5493656359条记录。它的描述如下：

load_ts timestamp
memo_ban bigint
memo_id bigint
sys_creation_date timestamp
sys_update_date timestamp
operator_id bigint
application_id varchar(6)
dl_service_code varchar(5)
dl_update_stamp bigint
memo_date timestamp
memo_type varchar(4)    
memo_subscriber varchar(20)
memo_system_txt varchar(180)
memo_manual_txt varchar(2000)
memo_source varchar(1)
data_dt string
market_cd string

Partition information:
data_dt string
market_cd string

2）

这是目标表

CREATE TABLE IF NOT EXISTS memo_temprushi (
load_ts TIMESTAMP,
ban BIGINT,
attuid BIGINT, 
application VARCHAR(6),
system_note INT,
user_note INT, 
note_time INT, 
date TIMESTAMP)
PARTITIONED BY (data_dt  STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY");

3）

这是源表Memo中的初始加载语句目标表memo_temprushi。载入所有记录，直到2015-12-14：

SET hive.exec.compress.output=true;
SET mapred.output.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
INSERT INTO TABLE memo_temprushi PARTITION (DATA_DT)
SELECT LOAD_TS,MEMO_BAN, OPERATOR_ID, APPLICATION_ID,
CASE WHEN LENGTH(MEMO_SYSTEM_TXT)=0 THEN 0 ELSE 1 END,
CASE WHEN LENGTH(MEMO_MANUAL_TXT)=0 THEN 0 ELSE 1 END,
HOUR(MEMO_DATE), MEMO_DATE, DATA_DT 
FROM tlgmob_gold.MEMO WHERE LOAD_TS < DATE('2015-12-15');

4）

对于增量加载，我想插入其余的记录，即从2015-12-15开始。我正在使用以下查询：

INSERT INTO TABLE memo_temprushi PARTITION (DATA_DT) 
SELECT MS.LOAD_TS,MS.MEMO_BAN, MS.OPERATOR_ID, MS.APPLICATION_ID, 
CASE WHEN LENGTH(MS.MEMO_SYSTEM_TXT)=0 THEN 0 ELSE 1 END, 
CASE WHEN LENGTH(MS.MEMO_MANUAL_TXT)=0 THEN 0 ELSE 1 END, 
HOUR(MS.MEMO_DATE), MS.MEMO_DATE, MS.DATA_DT 
FROM tlgmob_gold.MEMO MS JOIN (select max(load_ts) max_load_ts from memo_temprushi) mt 
ON 1=1 
WHERE 
ms.load_ts > mt.max_load_ts;

它启动了2个工作岗位。最初它会发出关于舞台是十字架产品的警告。第一份工作完全很快完成，但第二份工作仍然停留在减少33％。日志显示：[EventFetcher用于获取Map完成事件] org.apache.hadoop.mapreduce.task.reduce.EventFetcher：EventFetcher被中断..返回它表明减速器的数量是1。尝试通过此命令设置mapreduce.job.reduces来增加reducers的数量，但它不起作用。

由于

Answer 1

你可以试试这个。

运行＆＃34;从memo_temprushi＆＃34;
在查询的where条件中添加值，并删除查询的连接条件。

如果有效，那么您可以开发shell脚本，其中第一个查询将获得最大值，然后使用out join运行第二个查询。

以下是示例shell脚本。

max_date=$(hive -e "select max(order_date) from orders" 2>/dev/null)

hive -e "select order_date from orders where order_date >= date_sub('$max_date', 7);"

Hadoop和hive优化

1 个答案: