标签: pyspark pyspark-sql pyspark-dataframes
在pyspark数据框中 假设有dfA和dfB,
dfA : name , class dfB : class, time
如果dfA.select('class')。distinct()。count()= n, 当n为n <100时,n> 100000,
在这两种情况下操作联接时,应如何优化联接?