标签: scala apache-spark apache-spark-sql stack-overflow rdd
请,你能帮我吗?我正在尝试运行一种算法,该算法可检测value1重复的value2序列。 value2是val1,val2,val3和val4的串联。
value1
value2
val1
val2
val3
val4
该算法创建空的RDD模式。之后,它用具有相同value1的{{1}}填充第一个数据帧。并且它用value2重复的value1列表及其出现填充第二个数据帧。
当我对1000行数据运行处理代码的两个循环时,我没有错误, 但是当我在5万行上运行时,
我有以下例外情况:
value2。