我正在尝试通过连接到z / OS(大型机)中的DB2表在Pyspark中创建数据帧。我能够为1亿个小表连接并创建数据框,但是当表有8亿条记录时,它的-495异常终止。
如何在Pyspark中为非常大的表格创建数据框?
这是我到目前为止尝试过的。.我也尝试过添加更多的partitioncolumn,但是没有运气。
sql_context.read.format("jdbc")
.option("url", url)
.option("dbtable", "(select * from table_name) AS tbl")
.option("user", user)
.option("partitionColumn",column_name (used primary column name))
.option("lowerbound",1)
.option("uuperbound",100000)
.option("numPartitions",100)
.option("password", password)
.load()