我正在尝试获取一个csv文件,其中包含数据库中的表列表以及每个表中的行和列,并与Hive表进行比较。目的是匹配配置单元中的每个表行和列。
您有以下日志文件。喜欢下面很多行
DBName, Table name, rows, date
===========================
bigdata, emp, 10000,01-01-2010
bigdata,finance,3000,03-09-2010
bugdata,mktg,2000,10-10-2010
现在,编写一个程序/脚本,检查这些日志文件表行是否等于Hive表。如果表行相等则打印“表行相等”否则“表行不相等”假设您有Hive和表名相同
我已经尝试过遍历数据帧的多个东西也尝试使用RDD,但是我无法选择每个文件记录并使用SCALA与hive中的每个表进行比较。
我的尝试:
val sc = new SparkContext()
val readFileDB= sc.textFile("/databases.csv")
val mapData= readFileDB.map(l=>l.split(",")).map(c=>(c(0),c(1),c(2)))
val filterData = mapData.foreach{
case (dbname,table,rows)=> spark.catalog.setCurrentDatabase(dbname)
}