解析XML
文件时出现错误,该文件在集群中有20个嵌套级别(在本地计算机上工作)
错误代码生成器:编译失败:
org.codehaus.janino.JaninoRuntimeException:类org.apache.spark.sql.catalyst.expressions.GeneratedClass $ SpecificSafeProjection的常量池已超过JVM限制0xFFFF
为解决此问题,我添加了以下代码
--conf spark.sql.codegen.wholeStage=false
但是我仍然看到Java
代码是在Spark日志中生成的。
如:
/* 001 */ public java.lang.Object generate(Object[] references) {
我希望通过更改代码生成来消除CodeGenerator错误,但不会发生。尽管该配置存在于spark commit命令中,但我仍然看到Java代码。
基本上,我的目标是解析大型XML文件。