在我的spark 1.5.0应用程序中,我尝试通过对其进行多次连接来处理原始DataFrame
。
当我通过spark-submit
运行成功编译的jar时,每当我尝试对DataFrame
执行任何操作时都会收到此错误(例如show
,{ {1}},first
):
count
当我尝试在at org.apache.spark.unsafe.types.UTF8String.getBytes(UTF8String.java:234)
at org.apache.spark.unsafe.types.UTF8String.toString(UTF8String.java:827)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificMutableProjection.apply(Unknown Source)
at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:276)
at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator$$anonfun$generateProcessRow$1.apply(TungstenAggregationIterator.scala:273)
at org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator.processInputs(TungstenAggregationIterator.scala:533)
上执行相同的代码时,会发生一些奇怪的事情:
如果我在创建的spark-shell
上调用任何操作,我会得到相同的例外,但只是第一次。
如果我重试在同一个DataFrame上调用相同的操作,它将起作用。
这是一个已知问题,是否存在解决方法,或者我只是做错了什么?
这是结果DataFrame
:
DataFrame
这是我用来创建root
|-- id: string (nullable = true)
|-- language: integer (nullable = false)
|-- reccs: string (nullable = true)
:
DataFrame