该代码用于从JPG文件读取文本...。对于单台独立计算机,上述代码一次读取平均要花费10秒钟...。为减少处理时间,该代码已在一个2节点的PySpark群集...但是,2节点的群集的执行时间等于或大于一个独立的群集....请提出如何缩短Pyspark上的多节点群集的处理时间的建议
conf = pyspark.SparkConf()。setAppName('appName')。setMaster('local')
sc = pyspark.SparkContext(conf = conf)
spark = SparkSession(sc)
arr.head() arr.loc [100,0]
list = [] nums = sc.parallelize([1,2,3,4,5]) 对于范围(1,6)中的i: nums = sc.parallelize([1,2,3,4,5]) nums.map(lambda x:print(pytesseract.image_to_data(“ .... / jpg /” + arr.iloc [x,0],output_type ='data.frame')))。collect() 打印(i) #list.append(a)
nums = sc.parallelize([1,2,3,4]) nums.map(lambda x:x * x).collect()