应用错误收集

我是新手来激发优化。我试图将hive数据读入dataFrame。然后我将dataFrame转换为javaRdd并在其上运行map函数。我面临的问题是，在javaRdd上运行的转换是以单个任务运行的。此javaRdd上运行的转换也是单任务运行的。为了并行化，我重新分配了javaRdd。有没有更好的方法，因为重新分区需要更多的时间来改组数据。

int power(int base,int exp)
{
    int result=1;
    if(exp == 0){
        return 1;
    }
    while (exp != 0)
    {
        result=result*base;
        exp--;
    }
    return result;
}

如何使用distibuted副本将DataFrame转换为javaRdd？

0 个答案: