免责声明:我是HIVE的新手,而不是Create Hive table to read parquet files from parquet/avro schema的副本(已经尝试过解决方案)
我有一个火花作业,不断写入镶木地板格式的hdfs,我试图加载到Hive,以便我能够轻松查询(我的期望)。
我将文件保存为hdfs://X.X.X.X.5430/home/hduser/spark/testLogs/.
所以当我用这些镶木地板文件加载HIVE表时,我无法加载它。我正在使用以下命令创建一个外部HIVE表,但是当我查询它时没有数据。
"CREATE EXTERNAL TABLE IF NOT EXISTS log ( ipAddress STRING," +
"logLevel STRING," +
"userID STRING," +
"dateTimeString STRING," +
"method STRING," +
"endpoint STRING, " +
"protocol STRING," +
"responseCode INT," +
"content STRING," +
"trackingId STRING" +
") STORED AS PARQUET LOCATION 'hdfs://X.X.X.X:54310/home/hduser/spark/testlog/'");
此外,当我尝试手动将文件加载到表格时,我收到以下错误
load data inpath "hdfs://X.X.X.X:54310/home/hduser/spark/testlog/part-r-00000-29ad05a5-ca12-4332-afd0-39eb337a1acd.parquet" into table log;
使用local和without 执行查询 错误
FAILED: SemanticException Line 1:17 Invalid path .... No files matching path
任何人都遇到过这样的情况..我错过了什么吗? ....请指出我正确的方向...欢迎任何建议......
PS:我无法加载任何类型的文件格式。相应类型的表中的CSV或TXT
另外,如果有人知道如何将sparkRDD数据从spark填充到Hive ......请告诉我该怎么做。