Question

我试图获取包含整数范围对的RDD，并对其进行转换，以便每对都有第三个术语，该术语遍历范围内的可能值。基本上，我有这个：

[[1,10], [11,20], [21,30]]

我想最终得到这个：

[[1,1,10], [2,1,10], [3,1,10], [4,1,10], [5,1,10]...]

我想要转换的文件非常大，这就是为什么我希望用PySpark而不是本地机器上的Python（我有办法在CSV文件本地完成），但是根据文件的大小，这个过程需要几个小时）。到目前为止，我有这个：

a = [[1,10], [11,20], [21,30]]
b = sc.parallelize(a)
c = b.map(lambda x: [range(x[0], x[1]+1), x[0], x[1]])
c.collect()

哪个收益率：

>>> c.collect()
[[[1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 1, 10], [[11, 12, 13, 14, 15, 16, 17, 18, 19, 20], 11, 20], [[21, 22, 23, 24, 25, 26, 27, 28, 29, 30], 21, 30]]

我无法弄清楚下一步需要做什么，迭代扩展范围，并将每个与范围分隔符配对。

有什么想法吗？

编辑5/8/2017 3:00 PM

适用于CSV输入的本地Python技术是：

import csv
import gzip
csvfile_expanded = gzip.open('C:\output.csv', 'wb')
ranges_expanded = csv.writer(csvfile_expanded, delimiter=',', quotechar='"')
csvfile = open('C:\input.csv', 'rb')
ranges = csv.reader(csvfile, delimiter=',', quotechar='"')
for row in ranges:
    for i in range(int(row[0]),int(row[1])+1):
         ranges_expanded.writerow([i,row[0],row[1])

我正在质疑的PySpark脚本开始于已经加载到HDFS并作为RDD转换的CSV文件。

Answer 1

试试这个：

c = b.flatMap(lambda x: ([y, x[0], x[1]] for y in xrange(x[0], x[1]+1)))

flatMap()确保您为该范围的每个元素获得一个输出记录。还要注意外部( )和xrange的结合 - 这是一个生成器表达式，它避免实现执行程序内存中的整个范围。

注意：xrange()是Python2。如果您运行的是Python3，请使用range()

使用Spark中的Lambdas进行列表转换

1 个答案: