Question

在Ubuntu服务器上我设置了Divolte Collector以从网站收集点击流数据。数据存储在Hadoop HDFS（Avro文件）中。（http://divolte.io/）

然后我想用Airbnb Superset来显示数据，Airbnb Superset有几个连接到公共数据库的连接器（感谢SqlAlchemy），但不是HDFS。

，Superset特别是SparkSQL的连接器

那么可以用它来检索HDFS点击流数据吗？感谢

Answer 1

为了在SparkSQL中读取HDFS数据，有两种主要方式取决于您的设置：

阅读Hive中定义的表格（从远程Metastore读取）（可能不是你的情况）
默认情况下，SparkSQL（如果没有另外配置）会创建一个embedded metastore for Hive，允许您使用Hive语法发出DDL和DML语句。您需要external package才能使用CREATE TEMPORARY TABLE divolte_data USING com.databricks.spark.avro OPTIONS (path "path/to/divolte/avro");。
```
divolte_data
```

现在，数据应该在表flex