Spark上的Map函数返回'NoneType'

时间:2015-06-05 02:05:59

标签: python mapreduce apache-spark

我已在Python中编写以下代码以在Apache Spark上运行:

import sys
from pyspark import SparkContext

def generate_kdmer(seq):
    res = []
    beg2, end2 = k+d, k+d+k
    last = len(seq) - end2 + 1
    for i in range(last):
        res.append([seq[i:i+k], seq[i+beg2:i+end2]])
    return res.sort()

if __name__ == "__main__":
    if len(sys.argv) != 4:
        print("Usage: kdmer <file> <k> <d>, file=sys.stderr")
        exit(-1)
    sc = SparkContext(appName="KDmerGenerator")
    k, d = int(sys.argv[2]), int(sys.argv[3])
    lines = sc.textFile(sys.argv[1])
    kdmer = lines.map(generate_kdmer).reduce(lambda a, b: a + b)
    output = kdmer.collect()
    for i in output:
        print(str(i[0]) + ' | ' + str(i[1]))
    sc.stop()

它会生成错误:

TypeError: unsupported operand type(s) for +: 'NoneType' and 'NoneType

generate_kdmer函数应该返回一个列表,并且map返回的列表将在reduce中附加到一个列表中,但我不知道它为什么一直返回'None'。我试图在函数内部打印一些东西,但它在控制台上没有显示任何内容,这个函数真的被执行了吗?有没有更好的方法将函数传递给Spark上的地图?

1 个答案:

答案 0 :(得分:0)

问题是res.sort()会返回NoneType。您想要进行排序,然后返回res

res.sort()
return res

您可以将其直接插入python fiddle,看看我在说什么:

k = 1
d = 1
seq = "This is a string"
res = []
beg2, end2 = k+d, k+d+k
last = len(seq) - end2 + 1
for i in range(last):
  res.append([seq[i:i+k], seq[i+beg2:i+end2]])
print(res.sort())
print(res)