我一直在阅读(通过谷歌搜索)一段时间,但仍然没有得到一个明确的答案,所以最终决定发布。
我试图清楚了解设置自动ETL流程的好流程。我们采取以下问题:
1500万行数据,其中有5000个产品。根据此数据,计算特定产品的累计销售额是否超过X.如果在该时间点超过阈值,则设置flag = 1.
人们如何处理这项任务?我的方法是尝试使用SQL Server,但有时候这很痛苦。特别是转换中的步骤需要我编写一个Stored Proc,它可以动态创建临时表上的索引,以加快速度......所有这些似乎都很麻烦。
我应该用Java还是Python编写代码?我应该使用Alteryx还是Lavastorm?这是理想情况下我应该使用Hadoop吗?