Question

我正在使用Jupyter笔记本（python 3）在pyspark 2.4上。我有一个示例代码可以将数据加载到RDD中。但是，当我执行Take方法时，它给我一个错误。有任何想法吗？我的电脑上有IDE和示例文件。有人可以提出建议吗？

initialize命令工作正常。但是，take（5）显示错误

import findspark
findspark.init()
import pyspark
from pyspark import SparkConf
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))
tweetsRDD = sc.textFile("file:///temp/sunnystats.csv")
tweetsRDD.take(5)

Py4JJavaError

内向追踪（最近通话最近一次）      ----> 1条推文RDD.take（5）

C：\ Spark \ Spark \ python \ pyspark \ rdd.py in take（self，num）1358
  1359 p =范围   numPartsToTry，totalParts））   -> 1360 res = self.context.runJob（self，takeUpToNumLeft，p）1361 1362个项目+ = res

C：\ Spark \ Spark \ python \ pyspark \ context.py在runJob（self，rdd，   partitionFunc，partitions，allowLocal）1049＃   SparkContext＃runJob。 1050映射的RDD =   rdd.mapPartitions（partitionFunc）   -> 1051 sock_info = self._jvm.PythonRDD.runJob（self._jsc.sc（），mappedRDD._jrdd，分区）1052返回   列表（_load_from_socket（sock_info，mappingRDD._jrdd_deserializer））

无法使用Python阅读Pyspark中RDD的前5条记录

0 个答案: