使Spark应用程序在m4实例上运行

时间:2017-08-27 18:54:27

标签: apache-spark amazon-ec2 pyspark amazon-emr

我在EMR(5.7.0)上运行了一个pyspark应用程序,它处理大约140M的json记录。没有什么比数据集大小更奇特 - 主要操作是map,filter,count,repartitionAndSort和mapPartition。

这个应用程序在40 m3.2xlarge实例的集群上运行,但我想在m4系列上尝试它(因为我可以通过这种方式访问​​更强大的机器)。

然而,执行器落在群集上变得无法运行(如果我重新运行我的应用程序,它会在很早的时候失败而没有可用的执行程序。)

这是我失败时的堆栈跟踪。

unsigned long x = 42;
unsigned char uc[4];

uc[0] = (x & 0x000000FF);
uc[1] = (x & 0x0000FF00) >> 8;
uc[2] = (x & 0x00FF0000) >> 16;
uc[3] = (x & 0xFF000000) >> 24;

printf("uc[0] = %x \n", uc[0]);
printf("uc[1] = %x \n", uc[1]);
printf("uc[2] = %x \n", uc[2]);
printf("uc[3] = %x \n", uc[3]);

有任何帮助吗?似乎非常奇怪,这不能在m4级机器上运行。

0 个答案:

没有答案