标签: apache-pig
我有一个水平模式记录的文本文件,如何使用PIG Latin将此文件加载到关系中。
文件中有患者姓名和患者姓名。
文件中的数据: 001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin ......等
答案 0 :(得分:1)
我不知道任何开箱即用的加载器会以您的格式加载数据。你有两个选择。
LoadFunc
PigStorage
答案 1 :(得分:1)
您应该预处理数据,或者可以加载文件并创建UDF以将其拆分。
如果您想预处理数据,我建议您使用方便的语言(如Ruby或Python)创建脚本来完成这项工作。
查看here了解Python
否则,如果要创建UDF,可以使用Google Guava库拆分该行,然后使用元组创建错误输出。
查看{Gugu}示例here。
当然,您必须小心,因为这些方法可能存在可伸缩性问题。