应用错误收集

时间：2020-10-12 15:45:04

标签： aggregate-functions azure-data-factory azure-data-flow

我有一个带有几个联接的数据流，当进行联接5时，行数从10,000增至320,000（以增加数量为例），但此后，我需要进行更多的联接因此数据流需要更长的时间才能完成。

我要做的是在联接后添加一个聚合转换，以对以后将要使用的字段进行分组，以一种在数据库查询中使用SELECT DISTINCT的方式进行，但是仍然花了很长时间完成。

如何使此数据流运行更快？

我应该在每个联接之间使用聚合（和字段分组），以避免重复，还是在行开始增加的联接之后添加聚合（和字段分组...）？

谢谢。

答案 0 :(得分：0)

是否可以切换到“查找”而不是“加入”，然后选择“运行单行”。一步即可提供SELECT DISTINCT功能。

另外，要加快端到端的处理速度，请尝试优化内存并增加内核数。