我计划在云存储上部署气流dag并提供与GCS的连接,并从运行在Google Compute Engine实例上的Airflow访问这些dags。
从文档中可以清楚地看到远程日志记录是可行的。
我想在GCS上完全保留Airflow的存储(Logs and Dags)部分,因为我必须管理这些文件以避免在部署后修改VM上的文件。
此外,随着日志的增加,它开始占用云虚拟机磁盘上的大量空间。
是否可以在GCS上存储dags。如果是这样,我怎样才能做到这一点。
提前致谢。
答案 0 :(得分:1)
我迟到了,但您可以将一个存储桶作为文件系统挂载到您的VM(或任何Linux系统)。
与实际文件系统相比,我的体验可能有点慢,但如果我理解正确,这应该对你有用。
可以在documentation。
中找到有关实现此功能的详细信息答案 1 :(得分:0)
Google Cloud Platform似乎与气流广泛集成,可用于数据处理和存储。
有一篇官方Google Cloud Blog documentation文章解释了如何将Airflow与BigQuery连接起来。此外,official Airflow documentation还有一个用于Google Cloud Platform集成的附加部分,可以解释完整集成的其他详细信息。
总之,BigQuery似乎是适合您的产品,它是一个专门的Google工具,可以管理大量数据库,并且可以轻松地使用外部工具和其他Google产品(如虚拟机)进行操作和操作。
答案 2 :(得分:0)
在GCS中实现保存DAG的一种方法是将它们作为JSON存储在存储桶中。像这样,您可以避免将文件存储在VM中。
显示如何执行此操作的示例是此其他Stackoverflow post
答案 3 :(得分:0)
我知道这是一个古老的问题,但是对于有兴趣的人,您现在可以使用Google Cloud Composer在GCP上使用完全托管的Airflow。