标签: json random apache-pig sampling
我使用elephant-bird来解析Pig中的嵌套JSON。我希望存储一个样本,其中采样概率取决于二元属性的值" C"在解析的JSON中。
执行此条件抽样的一种方法是根据" C"的值拆分我的关系,然后将SAMPLE运算符应用于两个子关系,每个子关系都有不同的采样概率。