从非常大的表创建数据框-5亿到10亿个

时间:2019-03-30 11:43:56

标签: pyspark pyspark-sql

我正在尝试通过连接到z / OS(大型机)中的DB2表在Pyspark中创建数据帧。我能够为1亿个小表连接并创建数据框,但是当表有8亿条记录时,它的-495异常终止。

如何在Pyspark中为非常大的表格创建数据框?

这是我到目前为止尝试过的。.我也尝试过添加更多的partitioncolumn,但是没有运气。

sql_context.read.format("jdbc")
  .option("url", url)
  .option("dbtable", "(select * from table_name) AS tbl")
  .option("user", user)
  .option("partitionColumn",column_name (used primary column name))
  .option("lowerbound",1)
  .option("uuperbound",100000)
  .option("numPartitions",100)
  .option("password", password)
  .load()

0 个答案:

没有答案