Question

我有一个包含以下内容的CSV文件

id,pos_id,supplier_id
5127973,2000,"test
5704355,77,/10122

我想将其加载到数据框中并按原样加载数据，此数据框将通过JDBC加载到postresql中

我在这里做了什么：

val conf = new SparkConf().setMaster("local[2]").setAppName("my app")
 val sc = new SparkContext(conf)
 val sparkSession = SparkSession.builder.config(conf = conf).appName("spark session example").getOrCreate()

val df= sparkSession.sqlContext.read.format("com.databricks.spark.csv")
        .option("header", "true").option("escape", "\"").load("C:\\Users\\MHT\\Desktop\\data.csv")
   df.show()
    +-------+------+--------------------+
    |     id|pos_id|         supplier_id|
    +-------+------+--------------------+
    |5127973|  2000|test
    5704355,77,/...|
    +-------+------+--------------------+

如何在数据框中获取相同的数据，然后在postresql中获取相同的数据。

Answer 1

将csv数据写入HDFS并使用sqoop，我们可以通过在$ SQOOP_HOME / lib目录中提供所需的jdbc jar将数据导出到目标数据库。

数据帧中的特殊字符

1 个答案: