运行pyspark字数计算示例

时间:2016-12-22 21:49:53

标签: python apache-spark pyspark

我刚开始学习Spark,如果这太明显,请耐心等待 我安装了火花,我可以在终端中运行它(通过" ./ bin / pyspark")。 但我没有尝试以下示例(字数):

path = os.path.join("sample-text.txt")
with open(path, "w") as testFile:
    _ = testFile.write("Hello world Hello")

file = sc.textFile(path)
counts = file.flatMap(lambda line: line.split(" ")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)  

path2 = os.path.join("word-count.txt")
counts.saveAsTextFile(path2)  

一切都通过,但是当我尝试打开输出word-count.txt文件时,它表示无法打开此文档。
我做错了什么?

1 个答案:

答案 0 :(得分:1)

  

我试图打开输出word-count.txt文件

它创建一个名为BOOL的目录,而不是文件。

word-count.txt

您的代码有效。您的操作系统存在其他权限问题,导致您无法创建/打开目录。

相关(scala,但同样的想法) - how to make saveAsTextFile NOT split output into multiple file?