Question

下面是输入文件（csv）：

Carrier_create_date，消息，REF_SHEET_CREATEDATE，7/1/2008年 Carrier_create_time，消息，REF_SHEET_CREATETIME，8：53：57 Carrier_campaign，模拟，REF_SHEET_CAMPAIGN，25 Carrier_run_no，模拟，REF_SHEET_RUNNO，7

以下是每行的列数： （Carrier_create_date，Carrier_create_time，Carrier_campaign，Carrier_run_no）

所需的输出为数据帧：

7/1 / 2008,8：53：57,25,7

基本上输入文件的每一行都有列名和值。

到目前为止我尝试的是：

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkContext, SparkConf}

object coater4CR {

  // Define the application Name
  val AppName: String = "coater4CR"

  // Set the logging level.ERROR)
  Logger.getLogger("org.apache").setLevel(Level.ERROR)

  def main(args: Array[String]): Unit = {

    // define the input parmeters
    val input_file = "/Users/gangadharkadam/myapps/NlrPraxair/src/main/resources/NLR_Praxair›2008›3QTR2008›Coater_4›C025007.csv"

    // Create the Spark configuration and the spark context
    println("Initializing the Spark Context...")

    val conf = new SparkConf().setAppName(AppName).setMaster("local")

    // Define the Spark Context
    val sc = new SparkContext(conf)

    // Read the csv file
    val inputRDD = sc.wholeTextFiles(input_file)
      .flatMap(x => x._2.split(" "))
      .map(x => {
        val rowData = x.split("\n")

        var Carrier_create_date: String = ""
        var Carrier_create_time: String = ""
        var Carrier_campaign: String = ""
        var Carrier_run_no: String = ""

        for (data <- rowData) {
          if (data.trim().startsWith("Carrier_create_date")) {
            Carrier_create_date = data.split(",")(3)
          } else if (data.trim().startsWith("Carrier_create_time")) {
            Carrier_create_time = data.split(",")(3)
          } else if (data.trim().startsWith("Carrier_campaign")) {
            Carrier_campaign = data.split(",")(3)
          } else if (data.trim().startsWith("Carrier_run_no")) {
            Carrier_run_no = data.split(",")(3)
          }
        }
        (Carrier_create_date, Carrier_create_time, Carrier_campaign, Carrier_run_no)
      }).foreach(println)
  }
}

上述代码的问题 当我运行上面的代码时，我得到一个空列表，如下所示（,,,）

我改变时

Carrier_campaign = data.split（“，”）（3）

到

Carrier_campaign = data.split（“，”）（2）

我得到的下面的输出更接近了（REF_SHEET_CREATEDATE，REF_SHEET_CREATETIME，REF_SHEET_CAMPAIGN，REF_SHEET_RUNNO）（,,,）

上面的代码如何无法从数据行中选取最后一个列位置，但是对于列位置0,1,2。

所以我的问题是 -

上述代码有什么问题
了解读取此多行输入并以表格格式将其加载到数据库的有效方法

感谢任何关于此的帮助/指示。感谢。

什么是将多行输入格式读取到spark中的一条记录的最佳方法？

0 个答案: