标签: apache-spark apache-spark-sql
我正在使用嵌套数据结构(数组)来存储Spark表的多值属性。我在Spark SQL中使用array_contains(array,value)检查数组是否包含该值,但似乎存在性能问题。大型Spark表花费大量时间。有其他解决方案吗?
答案 0 :(得分:1)
您没有提供很多关于您到底在做什么的详细信息-如果您要访问数组内部的值很多,那么如果从数组中添加带有值的列可能是有益的,例如通过使用explode