无法使用Python阅读Pyspark中RDD的前5条记录

时间:2019-02-18 22:08:57

标签: pyspark

我正在使用Jupyter笔记本(python 3)在pyspark 2.4上。我有一个示例代码可以将数据加载到RDD中。但是,当我执行Take方法时,它给我一个错误。有任何想法吗?我的电脑上有IDE和示例文件。有人可以提出建议吗?

initialize命令工作正常。但是,take(5)显示错误

import findspark
findspark.init()
import pyspark
from pyspark import SparkConf
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate(SparkConf().setMaster("local[*]"))
tweetsRDD = sc.textFile("file:///temp/sunnystats.csv")
tweetsRDD.take(5)

Py4JJavaError

  

内向追踪(最近通话最近一次)      ----> 1条推文RDD.take(5)

     

C:\ Spark \ Spark \ python \ pyspark \ rdd.py in take(self,num)1358
  1359 p =范围   numPartsToTry,totalParts))   -> 1360 res = self.context.runJob(self,takeUpToNumLeft,p)1361 1362个项目+ = res

     

C:\ Spark \ Spark \ python \ pyspark \ context.py在runJob(self,rdd,   partitionFunc,partitions,allowLocal)1049#   SparkContext#runJob。 1050映射的RDD =   rdd.mapPartitions(partitionFunc)   -> 1051 sock_info = self._jvm.PythonRDD.runJob(self._jsc.sc(),mappedRDD._jrdd,分区)1052返回   列表(_load_from_socket(sock_info,mappingRDD._jrdd_deserializer))

0 个答案:

没有答案