如何从HDFS读取配置单元数据

时间:2018-01-22 16:01:33

标签: python hive pyspark pyspark-sql

我在HDFS hdfs:// localhost:8020 / user / hive / warehouse中有hive仓库。

我在hdfs中有一个数据库mydb,如hdfs:// localhost:8020 / user / hive / warehouse / mydb.db

我如何创建表格&使用Pyspark

将数据插入其中

请建议

1 个答案:

答案 0 :(得分:0)

使用hive上下文,您将能够在Hive中创建表格,请参阅以下代码以实现该目标。

import findspark
findspark.init()
import pyspark
from pyspark.sql import HiveContext

//hivecontext
sqlCtx= HiveContext(sc)

//Loading a csv file into dataframe
spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv")

//registering temp table
spark_df.registerTempTable("TABLE_Y")

//Creating table out of an existing temp created from data frame table
sqlCtx.sql("CREATE TABLE TABLE_X AS SELECT * from TABLE_Y")

//creating a brand new table in Hive
sqlCtx.sql("CREATE TABLE SomeSchema.TABLE_X (customername string, id string, ts timestamp) STORED AS DESIREDFORMAT")

希望您能理解代码中的注释,如果您遇到问题,请告诉我。