我的交易数据如下所示。
我需要使用Hive / Pig存储数据,并且应该能够查询。
任何人都可以建议我存储和检索下面显示的数据 (注意:每个新行都以0001开头)?
id |cusid |txndata
0001|000000001|01|0|AB...@GMAIL.COM|MR.XYZ|999 xxxx AVE|EDISON, NJ|.|.|UNITED STATES - 08820|NRI|E|101601075073||
0001|000000001|02|2|101601075073|INR??21656|Savings|N|0|N| | | | | |
0001|000000001|04|0|N|??21656|000000000001|INR??43800|15-04-2011|43800|2.53|12|0|44919|15-04-2012|N
0001|000000001|04|0|N|??21656|000000000002|INR??43800|15-10-2011|44715|7|6|0|46292|15-04-2012|N
0001|000000001|04|0|N|??|000000000003|USD??1000|05-04-2011|1000|1.78|12|1|1018.23|06-04-2012|N
0001|000000001|15|0|000000000004??INR|000001|04-04-2011|B/F ||0|0|0|||AMEERPET|
0001|000000001|15|0|000000000001??INR|000002|26-04-2011|USD500@43.80LESSFCST25 ||0|21875.00|21875.00|||AMEERPET|15-04-2011
0001|000000001|15|0|000000000001??INR|000003|29-04-2011|DCARDFEE16004889APR11-MAR12+ST ||219.00|0|21656.00|||HYD SV ROAD|29-04-2011
0001|000000001|22|0|000000000001??INR|0||||||||||
0001|000000001|25|0|0.00|0.00||||||||||
0001|000000001|65||9401150684744302|625301222448|7|0|1664|2|01-07-2012| | | | |
答案 0 :(得分:0)
如果行终结符是' \ n'它非常直接。
但如果线路终结器是' 0001'从hive版本开始,hive不支持自定义行终止符。默认行终结符是' \ n'。
LINES TERMINATED BY仅支持换行符' \ n'现在
这是按照解决方案解决的
https://issues.cloudera.org/browse/DISTRO-498?page=com.atlassian.jira.plugin.system.issuetabpanels:changehistory-tabpanel。
我们可以实现自定义输入格式作为变通方法。
Custom InputFormat with Hive
这将提供有关如何实施