我想知道人们在bigquery上建立和管理ETL作业时发现了哪些最佳实践/工具。
目前我有很多sql'模板'(通过lob,date等参数化,使用sed类型字符串替换成tmp.sql文件,然后运行它),我使用命令行工具运行它们的序列并将输出发送到表。它工作正常,但有点笨拙。我仍然不明白为什么我不能在bigquery上运行存储过程类型参数化脚本。甚至是某种gui来构建和管理管道。
我喜欢bigquery,但我真的觉得我要么缺少一些非常明显的东西,要么就是产品中的一个真正的差距(例如,非常确定Apache Drill在这方面的构建更多)。
所以只是想知道是否有人可以分享你自己使用的任何最佳实践etl技巧或方法。
我也使用xplenty进行一些好的工作,但是它也有点乱,因为我不能只在其中编写sql,因此构建和调试复杂的管道会很痛苦。
还在考虑调查Talend,但真正参数化存储过程,宏和SQL是我理想的需要。
很抱歉,如果这是一个讨论问题,那么具体的代码。很高兴将它移动到reddit或者更适合那里的东西。
答案 0 :(得分:1)
在我看来,Google Cloud Dataflow比BigQuery更接近您的需求。我们将它用于具有自动缩放功能的实时流式ETL。虽然你需要编写Java代码,但效果很好。