我正在对来自Teradata数据库的数据执行增量加载,并将其存储为实木复合地板文件。由于Teradata中的表包含数十亿行,因此我希望PySpark脚本比较哈希值。
Teradata表: An example table from Teradata
当前存储的实木复合地板文件: Data stored in parquet file
我的PySpark脚本使用JDBC读取连接来调用Teradata:
tdDF = return spark.read \
.format("jdbc") \
.option("driver", "com.teradata.jdbc.TeraDriver") \
.option("url", "jdbc:teradata://someip/DATABASE=somedb,MAYBENULL=ON") \
.option("dbtable", "(SELECT * FROM somedb.table)tmp")
在镶木地板中读取的火花脚本:
myDF = spark.read.parquet("myParquet")
myDF.createOrReplaceTempView("myDF")
spark.sql("select * from myDF").show()
我如何: