是否可以在配置单元中加载没有分隔符的数据集。
Data set:
1001KiranJava
1002AravindScala
1003JaveedOpps
1004RamC++
1005RahulHadoop
答案 0 :(得分:0)
是的,只要有一种模式可以将一个字段与另一个字段区分开来,就可以。例如,您可以使用RegexSerDe
在Hive中创建表CREATE TABLE fixed(id int, name string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES('input.regex'='(\\d+){0,4}(\.*)')
LOCATION 'file:///home/cloudera/fixed'
那应该给你
+-----------+---------------+--+
| fixed.id | fixed.name |
+-----------+---------------+--+
| 1001 | KiranJava |
| 1002 | AravindScala |
| 1003 | JaveedOpps |
| 1004 | RamC++ |
| 1005 | RahulHadoop |
+-----------+---------------+--+
上面例子中的正则表达式并不完美,但你明白了。