假设我有以下文件( input.txt ):
1 2 sometext1
2 3 sometext2
3 4 sometext3
4 5 sometext4
即。制表符分隔文件,其中每一行由两个表示Integer
的字符串和表示任意文本的第三个字符串组成。
此文件是PigLatin
脚本的输入:
input = load 'input.txt' as (a:int, b:int, c:chararray);
我的假设是Pig会浪费时间解析文本文件以产生相应的整数。我是对的吗?
我想在二进制文件中存储三个整数的二进制表示。
如何让Pig了解这样的二进制文件?我应该只是扩展LoadFunc
还是需要使用BinStorage
?
答案 0 :(得分:0)
你害怕浪费多少时间在这里?假设你的脚本的其余部分做了任何有意义的事情,或者你的文件足够大(这样IO会很严重),与其他所有内容相比,解析工作可以忽略不计