我有一个包含以下内容的CSV文件
id,pos_id,supplier_id
5127973,2000,"test
5704355,77,/10122
我想将其加载到数据框中并按原样加载数据,此数据框将通过JDBC加载到postresql中
我在这里做了什么:
val conf = new SparkConf().setMaster("local[2]").setAppName("my app")
val sc = new SparkContext(conf)
val sparkSession = SparkSession.builder.config(conf = conf).appName("spark session example").getOrCreate()
val df= sparkSession.sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true").option("escape", "\"").load("C:\\Users\\MHT\\Desktop\\data.csv")
df.show()
+-------+------+--------------------+
| id|pos_id| supplier_id|
+-------+------+--------------------+
|5127973| 2000|test
5704355,77,/...|
+-------+------+--------------------+
如何在数据框中获取相同的数据,然后在postresql中获取相同的数据。
答案 0 :(得分:0)
将csv数据写入HDFS并使用sqoop,我们可以通过在$ SQOOP_HOME / lib目录中提供所需的jdbc jar将数据导出到目标数据库。