在创建表时,我可以在配置单元中一次使用2个字段终结符(例如','和'。')?

时间:2017-12-22 07:51:52

标签: hadoop hive hiveql hadoop2 hive-serde

我的文件包含idyear。我的字段由,.分隔。我可以使用,.取代已被终止的字段吗?

1 个答案:

答案 0 :(得分:1)

这可以使用RegexSerDe。

hive> CREATE EXTERNAL TABLE citiesr1 (id int, city_org string, ppl float) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' 
WITH SERDEPROPERTIES ('input.regex'='^(\\d+)\\.(\\S+),(\\d++.\\d++)\\t.*')
LOCATION '/user/it1/hive/serde/regex';

在正则表达式中,定义了三个正则表达式组。

(\\d+) leading digits is the int id column
dot . is a separator
(\\S+) - string without spaces is the city_org string column
comma , is a separator
(\\d++.\\d++) - float column
\\t - tab separator

请在此处查看详细信息:https://community.hortonworks.com/articles/58591/using-regular-expressions-to-extract-fields-for-hi.html