我在HDFS hdfs:// localhost:8020 / user / hive / warehouse中有hive仓库。
我在hdfs中有一个数据库mydb,如hdfs:// localhost:8020 / user / hive / warehouse / mydb.db
我如何创建表格&使用Pyspark
将数据插入其中请建议
答案 0 :(得分:0)
使用hive上下文,您将能够在Hive中创建表格,请参阅以下代码以实现该目标。
import findspark
findspark.init()
import pyspark
from pyspark.sql import HiveContext
//hivecontext
sqlCtx= HiveContext(sc)
//Loading a csv file into dataframe
spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv")
//registering temp table
spark_df.registerTempTable("TABLE_Y")
//Creating table out of an existing temp created from data frame table
sqlCtx.sql("CREATE TABLE TABLE_X AS SELECT * from TABLE_Y")
//creating a brand new table in Hive
sqlCtx.sql("CREATE TABLE SomeSchema.TABLE_X (customername string, id string, ts timestamp) STORED AS DESIREDFORMAT")
希望您能理解代码中的注释,如果您遇到问题,请告诉我。