使用SparkSQL连接器从Hadoop HDFS读取数据以在Superset中可视化它?

时间:2017-05-13 15:16:29

标签: hadoop apache-spark hive hdfs apache-spark-sql

在Ubuntu服务器上我设置了Divolte Collector以从网站收集点击流数据。数据存储在Hadoop HDFS(Avro文件)中。 (http://divolte.io/

然后我想用Airbnb Superset来显示数据,Airbnb Superset有几个连接到公共数据库的连接器(感谢SqlAlchemy),但不是HDFS。

由于JDBC Hive(http://airbnb.io/superset/installation.html#database-dependencies

,Superset特别是SparkSQL的连接器

那么可以用它来检索HDFS点击流数据吗?感谢

1 个答案:

答案 0 :(得分:3)

为了在SparkSQL中读取HDFS数据,有两种主要方式取决于您的设置:

  1. 阅读Hive中定义的表格(从远程Metastore读取)(可能不是你的情况)
  2. 默认情况下,SparkSQL(如果没有另外配置)会创建一个embedded metastore for Hive,允许您使用Hive语法发出DDL和DML语句。 您需要external package才能使用CREATE TEMPORARY TABLE divolte_data USING com.databricks.spark.avro OPTIONS (path "path/to/divolte/avro");

    divolte_data
  3. 现在,数据应该在表flex

    中提供