如何验证猪的数据类型?

时间:2016-11-04 11:55:13

标签: apache-pig

我一直在尝试验证通过pig从平面文件中获取的数据的数据类型。

一个简单的CAT可以解决这个问题,但Flat文件很大,有时会包含特殊字符。

我需要过滤掉包含文件中特殊字符的记录,以及数据类型不是int时的记录。 猪有什么办法吗? 我想在这里找到替代getType().getName()类型的java。

执行架构和使用Describe是我们在加载数据时所做的事情,然后删除未命中匹配,但无论如何都要执行它而不强制执行架构。

任何建议都会有所帮助。

1 个答案:

答案 0 :(得分:0)

将数据加载到一行:charraray并使用正则表达式过滤掉包含数字以外字符的记录

A = LOAD 'data.txt' AS (line:chararray);
B = FILTER A BY (line matches '\\d+$'); -- Change according to your needs.
DUMP B;