如何使用Hive表数据验证文件数据?

时间:2017-11-22 06:29:56

标签: scala csv hadoop apache-spark apache-spark-sql

我正在尝试获取一个csv文件,其中包含数据库中的表列表以及每个表中的行和列,并与Hive表进行比较。目的是匹配配置单元中的每个表行和列。

  

您有以下日志文​​件。喜欢下面很多行

DBName, Table name, rows, date 
=========================== 
bigdata, emp, 10000,01-01-2010 
bigdata,finance,3000,03-09-2010 
bugdata,mktg,2000,10-10-2010 

现在,编写一个程序/脚本,检查这些日志文件表行是否等于Hive表。如果表行相等则打印“表行相等”否则“表行不相等”假设您有Hive和表名相同

我已经尝试过遍历数据帧的多个东西也尝试使用RDD,但是我无法选择每个文件记录并使用SCALA与hive中的每个表进行比较。

我的尝试:

 val sc = new SparkContext()
    val readFileDB= sc.textFile("/databases.csv")
    val mapData= readFileDB.map(l=>l.split(",")).map(c=>(c(0),c(1),c(2)))
    val filterData = mapData.foreach{
      case (dbname,table,rows)=> spark.catalog.setCurrentDatabase(dbname)
     } 

0 个答案:

没有答案