我一直在尝试验证通过pig从平面文件中获取的数据的数据类型。
一个简单的CAT可以解决这个问题,但Flat文件很大,有时会包含特殊字符。
我需要过滤掉包含文件中特殊字符的记录,以及数据类型不是int
时的记录。
猪有什么办法吗?
我想在这里找到替代getType().getName()
类型的java。
执行架构和使用Describe是我们在加载数据时所做的事情,然后删除未命中匹配,但无论如何都要执行它而不强制执行架构。
任何建议都会有所帮助。
答案 0 :(得分:0)
将数据加载到一行:charraray并使用正则表达式过滤掉包含数字以外字符的记录
A = LOAD 'data.txt' AS (line:chararray);
B = FILTER A BY (line matches '\\d+$'); -- Change according to your needs.
DUMP B;