数据帧中的特殊字符

时间:2017-09-13 16:37:50

标签: scala apache-spark apache-spark-sql

我有一个包含以下内容的CSV文件

id,pos_id,supplier_id
5127973,2000,"test
5704355,77,/10122

我想将其加载到数据框中并按原样加载数据,此数据框将通过JDBC加载到postresql中

我在这里做了什么:

val conf = new SparkConf().setMaster("local[2]").setAppName("my app")
 val sc = new SparkContext(conf)
 val sparkSession = SparkSession.builder.config(conf = conf).appName("spark session example").getOrCreate()

val df= sparkSession.sqlContext.read.format("com.databricks.spark.csv")
        .option("header", "true").option("escape", "\"").load("C:\\Users\\MHT\\Desktop\\data.csv")
   df.show()
    +-------+------+--------------------+
    |     id|pos_id|         supplier_id|
    +-------+------+--------------------+
    |5127973|  2000|test
    5704355,77,/...|
    +-------+------+--------------------+

如何在数据框中获取相同的数据,然后在postresql中获取相同的数据。

1 个答案:

答案 0 :(得分:0)

将csv数据写入HDFS并使用sqoop,我们可以通过在$ SQOOP_HOME / lib目录中提供所需的jdbc jar将数据导出到目标数据库。