我想从PigFS加载大量小文件并将其作为元组处理(文件名,文件内容)。
\Z
但似乎我不能省略指定分隔符。是否有某种" NULL"在猪或有没有其他方法来确保文件的内容不会被拆分?
答案 0 :(得分:1)
您必须通过扩展LoadFunc
来编写自己的自定义加载程序。
对您的问题的简短回答是否。为了确保内容不被拆分,请使用内容中不存在的分隔符。这样,整个内容将被加载到字段{{1}假设您的输入文件没有特殊字符'〜'
filecontents:chararray