Question

该代码用于从JPG文件读取文本...。对于单台独立计算机，上述代码一次读取平均要花费10秒钟...。为减少处理时间，该代码已在一个2节点的PySpark群集...但是，2节点的群集的执行时间等于或大于一个独立的群集....请提出如何缩短Pyspark上的多节点群集的处理时间的建议

conf = pyspark.SparkConf（）。setAppName（'appName'）。setMaster（'local'） sc = pyspark.SparkContext（conf = conf） spark = SparkSession（sc）

arr.head（） arr.loc [100,0]

list = [] nums = sc.parallelize（[1,2,3,4,5]）对于范围（1,6）中的i： nums = sc.parallelize（[1,2,3,4,5]） nums.map（lambda x：print（pytesseract.image_to_data（“ .... / jpg /” + arr.iloc [x，0]，output_type ='data.frame'）））。collect（）打印（i）＃list.append（a）

nums = sc.parallelize（[1,2,3,4]） nums.map（lambda x：x * x）.collect（）

PySpark需要花费很多时间来执行

0 个答案: