在Spark Dataframe中,我正在寻找以下优化内容。
我不确定这是发生在引擎盖下发生的事情,请对此进行验证并纠正我,如果我错了。这将影响一个重要的性能因素。
提前致谢。
答案 0 :(得分:0)
每个执行者都有自己的联系。
val df = (spark.read.jdbc(url=jdbcUrl,
dbtable="employees",
columnName="emp_no",
lowerBound=1L,
upperBound=100000L,
numPartitions=100,
connectionProperties=connectionProperties))
display(df)
在Spark UI中,您将看到numPartitions指示了启动的任务数。每个任务都分布在执行程序中,这可以通过JDBC接口增加读写的并行性。查看上游指南,查看可以帮助提高性能的其他参数,例如fetchsize选项。