我有一个带有几个联接的数据流,当进行联接5时,行数从10,000增至320,000(以增加数量为例),但此后,我需要进行更多的联接因此数据流需要更长的时间才能完成。
我要做的是在联接后添加一个聚合转换,以对以后将要使用的字段进行分组,以一种在数据库查询中使用SELECT DISTINCT的方式进行,但是仍然花了很长时间完成。
如何使此数据流运行更快?
我应该在每个联接之间使用聚合(和字段分组),以避免重复,还是在行开始增加的联接之后添加聚合(和字段分组...)?
谢谢。
答案 0 :(得分:0)
是否可以切换到“查找”而不是“加入”,然后选择“运行单行”。一步即可提供SELECT DISTINCT功能。
另外,要加快端到端的处理速度,请尝试优化内存并增加内核数。