将某些Flink操作优先于其他操作

时间:2018-05-15 11:45:21

标签: java etl apache-flink

我正在使用Flink v1.4.0

我正在利用批处理API来执行一些ETL,其中DataSet<Employee > Employee具有以下形式:

public class Employee implements Serializable {

private String name;
private double baseSalary;
private double bonus;
private double totalComp;

...
}

假设所有变量都有构造函数,setter和getter。

现在,我已经应用了许多操作,我认为是顺序的方式,根据这些操作,我试图丰富DataSet<Employee> employees,如下所示:

...
DataSet<String> employees = env.fromCollection(employeesList);

DataSet<Employee> initEmployees = employees.map(new InitMapFunction());

DataSet<Employee> employeesEnrichedWithSalaryData = initEmployees.map(new SalaryMapFunction(salaryEnrichmentData));

DataSet<Employee> employeesEnrichedWithBonusData = employeesEnrichedWithSalaryData.map(new BonusMapFunction(bonusEnrichmentData));

DataSet<Employee> finalEmployeesData = employeesEnrichedWithSalaryData.map(new TotalCompMapFunction());
...

假设我的包中的某个地方有以下MapFunction实现:

final class InitMapFunction implements MapFunction<String, Employee>, Serializable {

    @Override
    public Employee map(String name) {

        Employee employee = Employee.newBuilder().build();
        employee.setName(name)
        return employee;
    }
}

final class SalaryMapFunction implements MapFunction<Employee, Employee>, Serializable {

    private Map<String, double> mapOfEmployeeVsSalary;

    SalaryMapFunction(Map<String, double> mapOfEmployeeVsSalary) {
        this.mapOfEmployeeVsSalary = mapOfEmployeeVsSalary;
    }

    @Override
    public Employee map(Employee employee) {

        if(mapOfEmployeeVsSalary.containsKey(employee.getName())) {
           employee.setSalary(mapOfEmployeeVsSalary.get(employee.getName()))
        }

        return employee;
    }
}

final class BonusMapFunction implements MapFunction<Employee, Employee>, Serializable {

    private Map<String, double> mapOfEmployeeVsBonus;

    SalaryMapFunction(Map<String, double> mapOfEmployeeVsBonus) {
        this.mapOfEmployeeVsBonus = mapOfEmployeeVsBonus;
    }

    @Override
    public Employee map(Employee employee) {

        if(mapOfEmployeeVsBonus.containsKey(employee.getName())) {
           employee.setBonus(mapOfEmployeeVsBonus.get(employee.getName()))
        }

        return employee;
    }
}

final class TotalCompMapFunction implements MapFunction<Employee, Employee>, Serializable {

    @Override
    public Employee map(Employee employee) {
        employee.setTotalComp(employee.getSalary + employee.getBonus);
        return employee;
    }
}

问题是:最终的DataSet(finalEmployeesData)是否包含正确的值?我知道我可以一气呵成,但这不是这个问题的重点。我实现的代码的功能要求丰富在不同的步骤中进行。我已经确定了在处理数据集时如上所述的特定字段未使用正确值进行丰富的情况。我理解/怀疑这是由于懒惰的评估,并依赖于Flink为了计算最佳执行顺序(识别独立操作等)而进行的优化。这是对的吗?

最后,我怎样才能保证某个操作优先于另一个操作?如果将这些操作链接在一起,输出会改变吗?

DataSet<Employee> finalEmployessData = env.fromCollection(employeesList)
                  .map(new InitMapFunction())
                  .map(new SalaryMapFunction(salaryEnrichmentData))
                  .map(new BonusMapFunction(bonusEnrichmentData))
                  .map(new TotalCompMapFunction());

1 个答案:

答案 0 :(得分:1)

Flink不会改变操作顺序。如果将程序定义为

DataSet<Y> result = input
  .map(new Map1())
  .map(new Map2())

然后Map2()将始终应用于Map1()的结果。

无论是在不同的对象上逐个应用函数还是在上一个代码片段中以流畅的方式应用函数,都没有区别。

你说,你观察到某些值无法正确设置的情况。假设您运行的代码与此处显示的代码不完全相同,原因之一可能是Flink如何连接运算符以及它如何在运算符之间传送记录。在某些情况下(例如映射函数序列),Flink通过方法调用传递记录以避免序列化成本。我们称之为函数链接。链接函数被融合到一个运算符中(例如,您可以在Web UI中看到)。显然,这些函数必须注意它们如何与它们接收和发出的对象进行交互。否则,同一记录可能会被两个函数同时修改。我建议您仔细查看Flink文档中有关object reusage的部分。