Question

免责声明：我是HIVE的新手，而不是Create Hive table to read parquet files from parquet/avro schema的副本（已经尝试过解决方案）

我有一个火花作业，不断写入镶木地板格式的hdfs，我试图加载到Hive，以便我能够轻松查询（我的期望）。

我将文件保存为hdfs://X.X.X.X.5430/home/hduser/spark/testLogs/.

中的PARQUET文件

所以当我用这些镶木地板文件加载HIVE表时，我无法加载它。我正在使用以下命令创建一个外部HIVE表，但是当我查询它时没有数据。

"CREATE EXTERNAL TABLE IF NOT EXISTS log ( ipAddress STRING," +
            "logLevel STRING," +
            "userID STRING," +
            "dateTimeString STRING," +
            "method STRING," +
            "endpoint STRING, " +
            "protocol STRING," +
            "responseCode INT," +
            "content STRING," +
            "trackingId STRING" +
            ") STORED AS PARQUET LOCATION 'hdfs://X.X.X.X:54310/home/hduser/spark/testlog/'");

此外，当我尝试手动将文件加载到表格时，我收到以下错误

load data inpath "hdfs://X.X.X.X:54310/home/hduser/spark/testlog/part-r-00000-29ad05a5-ca12-4332-afd0-39eb337a1acd.parquet" into table log;

使用local和without 执行查询错误

FAILED: SemanticException Line 1:17 Invalid path .... No files matching path

任何人都遇到过这样的情况..我错过了什么吗？ ....请指出我正确的方向...欢迎任何建议......

PS：我无法加载任何类型的文件格式。相应类型的表中的CSV或TXT

另外，如果有人知道如何将sparkRDD数据从spark填充到Hive ......请告诉我该怎么做。

Hive不会从hdfs填充数据

0 个答案: