标签: json apache-spark hiveql udf
我在一个海量数据集上运行Spark 1.6.2作业,该数据集的列有一个未解析的json字符串(我无法控制,它可以是任何东西)。我使用带有HiveContext UDF的get_json_object运行SQL查询,但它崩溃了,说:
HiveContext
get_json_object
java.lang.ArrayIndexOutOfBoundsException: 38
有没有办法弄清楚造成这个问题的行是什么?