内部部署的三角洲湖

时间:2021-02-09 19:36:41

标签: delta-lake data-lake

是否可以在本地实施三角洲湖?如果是,需要安装什么软件/工具?

我正在尝试在内部实现一个 delta 湖来分析一些日志文件和数据库表。我当前的机器装有 ubuntu,apache spark。不确定还需要哪些其他工具。

是否有其他工具建议来实施本地数据湖概念?

1 个答案:

答案 0 :(得分:2)

是的,您可以在本地使用 Delta Lake。这只是使用正确版本的 Delta 库的问题(Spark 2.4 为 0.6.1,Spark 3.0 为 0.8.0)。或者按如下方式运行 spark-shell/pyspark(对于 Spark 3.0):

pyspark --packages io.delta:delta-core_2.12:0.8.0

然后就可以用Delta格式写数据了,像这样:

spark.range(1000).write.format("delta").mode("append").save("1.delta")

它也可以处理本地文件,但是如果你需要构建一个真正的数据湖,那么你需要使用像 HDFS 这样的东西,它也支持开箱即用。