我对apache pig很新,并尝试使用一些固定宽度的文本。在猪身上,我正在阅读每一行作为一个chararray(我知道我可以使用fixedwidthloader,但不是在这个例子中)。我正在使用的其中一个字段是一个电子邮件字段,一个条目有一个回车符,在完成的数据转储中生成额外的输出行(我显示12行而不是9 I期望)。我知道哪个条目有错误,但是我无法使用pig过滤掉它。
到目前为止,我已经尝试使用pig的REPLACE来替换\ r或\ uFFFD,甚至尝试了一个在命令行上工作的python UDF,但是当我通过PIG将它作为UDF运行时。有人有什么建议吗?如果需要更多详细信息,请告诉我。
答案 0 :(得分:0)
我使用解决方案的原始编辑结果只是部分时间工作。这次我必须在通过猪运行之前清理数据。在原始数据文件中,我执行了x
以删除恶意回车。