apache beam中的GroupBy优化

时间:2018-05-09 07:05:27

标签: apache-spark google-cloud-dataflow apache-beam

目前我有以下数据:

class YC_NavigationBar: UINavigationBar {

    required init?(coder aDecoder: NSCoder) {
        super.init(coder: aDecoder)

        self.backIndicatorImage = UIImage(named: "TopBar_Button_Back")!.withRenderingMode(.alwaysOriginal)
        self.backIndicatorTransitionMaskImage = UIImage(named: "TopBar_Button_Back")!.withRenderingMode(.alwaysOriginal)
        UIBarButtonItem.appearance().setBackButtonTitlePositionAdjustment(UIOffsetMake(0, -200.0), for: .default)

    }

    override func draw(_ rect: CGRect) {
        super.draw(rect)

        for i in self.subviews {
            if NSStringFromClass(i.classForCoder) == "_UINavigationBarContentView" {
                for j in i.subviews {
                    for constraint in j.constraints {
                        if constraint.firstAttribute == .leading && NSStringFromClass(constraint.firstItem!.classForCoder) == "_UIModernBarButton"  {
                            constraint.constant = 0
                            break
                        }
                    }
                    if NSStringFromClass(j.classForCoder) == "_UIButtonBarStackView" {
                        let ctr = NSLayoutConstraint(item: j, attribute: .trailing, relatedBy: .equal, toItem: i, attribute: .trailing, multiplier: 1, constant: 0)
                        i.addConstraint(ctr)
                    }
                }
                break
            }
        }
    }
}

我需要构建一个查找,使其包含唯一标识内容类型的所有URL。但是,网址应该是从最终可能唯一标识内容类型的最短网址。 例如:在上面的例子中,ampproject.org就足够了,而不是整个网址。

方法: 我从最后开始,在每个点处拆分并进行分组,以查看该部分是否唯一标识内容类型。 例。

.org(CDN,NOCAT) - 所以没有标识

ampproject.org(CDN) - 是唯一的,因此推送查找

因此,对于每个密钥,我需要检查分组值是否全局相同(跨工作人员),如果是,请按下查找,否则继续处理后续步骤。

需要帮助: 1)在上述情况下如何使用组合器来减少数据的混乱?

注意:我正在使用SSD磁盘和数据流洗牌器服务。

0 个答案:

没有答案