是否可以在配置单元中加载没有分隔符的数据集

时间:2018-02-15 09:10:46

标签: hadoop hive

是否可以在配置单元中加载没有分隔符的数据集。

Data set:
1001KiranJava
1002AravindScala
1003JaveedOpps
1004RamC++
1005RahulHadoop

1 个答案:

答案 0 :(得分:0)

是的,只要有一种模式可以将一个字段与另一个字段区分开来,就可以。例如,您可以使用RegexSerDe

在Hive中创建表
CREATE TABLE fixed(id int, name string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES('input.regex'='(\\d+){0,4}(\.*)')
LOCATION 'file:///home/cloudera/fixed'

那应该给你

+-----------+---------------+--+
| fixed.id  |  fixed.name   |
+-----------+---------------+--+
| 1001      | KiranJava     |
| 1002      | AravindScala  |
| 1003      | JaveedOpps    |
| 1004      | RamC++        |
| 1005      | RahulHadoop   |
+-----------+---------------+--+

上面例子中的正则表达式并不完美,但你明白了。