PySpark需要花费很多时间来执行

时间:2019-05-20 10:18:15

标签: python apache-spark

该代码用于从JPG文件读取文本...。对于单台独立计算机,上述代码一次读取平均要花费10秒钟...。为减少处理时间,该代码已在一个2节点的PySpark群集...但是,2节点的群集的执行时间等于或大于一个独立的群集....请提出如何缩短Pyspark上的多节点群集的处理时间的建议

conf = pyspark.SparkConf()。setAppName('appName')。setMaster('local') sc = pyspark.SparkContext(conf = conf) spark = SparkSession(sc)

arr.head() arr.loc [100,0]

list = [] nums = sc.parallelize([1,2,3,4,5]) 对于范围(1,6)中的i:     nums = sc.parallelize([1,2,3,4,5])     nums.map(lambda x:print(pytesseract.image_to_data(“ .... / jpg /” + arr.iloc [x,0],output_type ='data.frame')))。collect()     打印(i)     #list.append(a)

nums = sc.parallelize([1,2,3,4]) nums.map(lambda x:x * x).collect()


0 个答案:

没有答案