在pyspark中设置spark.sql.codegen.wholeStage = false,但仍在日志中生成Java代码

时间:2019-07-01 07:46:22

标签: apache-spark pyspark

解析XML文件时出现错误,该文件在集群中有20个嵌套级别(在本地计算机上工作)

错误代码生成器:编译失败:

  

org.codehaus.janino.JaninoRuntimeException:类org.apache.spark.sql.catalyst.expressions.GeneratedClass $ SpecificSafeProjection的常量池已超过JVM限制0xFFFF

为解决此问题,我添加了以下代码

--conf spark.sql.codegen.wholeStage=false 

但是我仍然看到Java代码是在Spark日志中生成的。 如:

/* 001 */ public java.lang.Object generate(Object[] references) {

我希望通过更改代码生成来消除CodeGenerator错误,但不会发生。尽管该配置存在于spark commit命令中,但我仍然看到Java代码

基本上,我的目标是解析大型XML文件。

0 个答案:

没有答案