Pig中的条件抽样

时间:2015-04-08 15:55:53

标签: json random apache-pig sampling

我使用elephant-bird来解析Pig中的嵌套JSON。我希望存储一个样本,其中采样概率取决于二元属性的值" C"在解析的JSON中。

执行此条件抽样的一种方法是根据" C"的值拆分我的关系,然后将SAMPLE运算符应用于两个子关系,每个子关系都有不同的采样概率。

  1. 在一个方面,是否有更直接有效的方法来实现这一目标 通过?
  2. 如果没有,建议拆分然后合并的方法是什么 子关系重新组合在一起?我正在操作大文件,所以 效率是一个问题。

0 个答案:

没有答案