如何加载文件使用PIG以水平模式记录

时间:2013-10-12 07:29:53

标签: apache-pig

我有一个水平模式记录的文本文件,如何使用PIG Latin将此文件加载到关系中。

文件中有患者姓名和患者姓名。

文件中的数据: 001 Rakesh 005 Samir 006 Daksh 010 Kapil 456 Sachin ......等

2 个答案:

答案 0 :(得分:1)

我不知道任何开箱即用的加载器会以您的格式加载数据。你有两个选择。

  1. 撰写自定义LoadFunc
  2. 修改输入文件,使每行只有一条记录。然后,您就可以使用PigStorage

答案 1 :(得分:1)

您应该预处理数据,或者可以加载文件并创建UDF以将其拆分。

如果您想预处理数据,我建议您使用方便的语言(如Ruby或Python)创建脚本来完成这项工作。

查看here了解Python

否则,如果要创建UDF,可以使用Google Guava库拆分该行,然后使用元组创建错误输出。

查看{Gugu}示例here

当然,您必须小心,因为这些方法可能存在可伸缩性问题。