我是Hive的新手,所以如果我的问题是noobies,请保持温柔: - )
我使用以下hive语句创建数据并将其加载到表中。
CREATE TABLE entities_extract (doc_id STRING, name STRING, type STRING, len STRING, offset STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/research/45924/hive/entities_extract';
LOAD DATA LOCAL INPATH '/home/researcher/hadoop-runnables/files/entitie_extract_by_doc.txt' OVERWRITE INTO TABLE entities_extract;
到目前为止,Oke非常好,执行此脚本时没有错误。奇怪的是,当我在表格中执行select * from时,我的结果显示了4个带有空值的额外列
进入的数据如下所示:
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Chanko PERSON 6 41086
从select返回的数据如下所示:
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Chanko PERSON 6 41086 NULL NULL NULL NULL
编辑: 低于“entitie_extract_by_doc.txt”
的一小部分USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Berkowitz PERSON 9 385
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Marotolli PERSON 939420
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Corzatt PERSON 7 39772
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Berkowitz PERSON 9 40314
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Corzatt PERSON 7 40584
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Berkowitz PERSON 9 40840
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Rich PERSON 4 41038
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Lea PERSON 3 41044
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Anthony PERSON 7 41049
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Bill PERSON 4 41062
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Nelson PERSON 6 41067
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Barbara PERSON 7 41078
USER.A-GovDocs-f83c6ca3-9585-4c66-b9b0-f4c3bd57ccf4 Chanko PERSON 6 41086
我已经查看了我的源数据,看看是否有4个额外的标签,但事实并非如此..
这里的任何人都知道这4个额外的列来自何处?
亲切的问候,
马亭
答案 0 :(得分:0)
您应该替换属于同一列的字符串数据中的任何\n
。那些额外的\n
可能会创建额外的列。
select regexp_replace(mensaje,"\n"," ") from partido where id = "1e2af";
答案 1 :(得分:0)
这里你不创建外部表,所以不需要提到位置。从查询中删除位置,然后您将获得正确的值。