HDInsight作业以查询特定文件夹

时间:2018-08-08 22:42:28

标签: apache-pig hdinsight

我们将数据以年/月/日/小时的格式存储在Azure存储中。该数据由每天运行的HDInsight作业处理。在Pig脚本中,是否可以使用AvroStorage将数据从StartDate加载到EndDate? 例如,从2018/07/15加载数据到2018/08/15。即使这些文件夹之一中没有数据,例如2018/07/18,我们也要确保加载成功。

现在,我们加载整个2018文件夹并在日志中过滤掉这些日期。但是,这效率低下。如果2018文件夹中有一些损坏的文件(或临时文件),则Pig作业将失败,并显示与AvroSchema相关的错误。 2018文件夹是一个工作文件夹,不断用新数据写入文件,因此会生成损坏/临时的文件。

有没有办法通过忽略这些错误的文件来使猪的工作运行?还是有更好的方法在两个给定日期之间加载这些文件?

0 个答案:

没有答案