在Ubuntu服务器上我设置了Divolte Collector以从网站收集点击流数据。数据存储在Hadoop HDFS(Avro文件)中。 (http://divolte.io/)
然后我想用Airbnb Superset来显示数据,Airbnb Superset有几个连接到公共数据库的连接器(感谢SqlAlchemy),但不是HDFS。
由于JDBC Hive(http://airbnb.io/superset/installation.html#database-dependencies)
,Superset特别是SparkSQL的连接器那么可以用它来检索HDFS点击流数据吗?感谢
答案 0 :(得分:3)
为了在SparkSQL中读取HDFS数据,有两种主要方式取决于您的设置:
默认情况下,SparkSQL(如果没有另外配置)会创建一个embedded metastore for Hive,允许您使用Hive语法发出DDL和DML语句。
您需要external package才能使用CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");
。
divolte_data
现在,数据应该在表flex