标签: python apache-spark pyspark rdd
我有一个.txt文件,其中包含如下多行数据:
[t_1, t_2, t_3, t_4, ...]
我想通过Pyspark API将其读入RDD,这是所需的RDD:
[t_1,...,t_n, t_(n+1),...,t_(2n), t_(2n+1),...,t_(3n), ...]
有人可以给我一个想法吗?
提前致谢