推荐用于大数据到大数据的ETL方法

时间:2015-03-10 14:39:26

标签: sql-server bigdata etl

我一直在阅读(通过谷歌搜索)一段时间,但仍然没有得到一个明确的答案,所以最终决定发布。

我试图清楚了解设置自动ETL流程的好流程。我们采取以下问题:

数据:

产品代码,月份,年份,销售,旗帜

1500万行数据,其中有5000个产品。根据此数据,计算特定产品的累计销售额是否超过X.如果在该时间点超过阈值,则设置flag = 1.

人们如何处理这项任务?我的方法是尝试使用SQL Server,但有时候这很痛苦。特别是转换中的步骤需要我编写一个Stored Proc,它可以动态创建临时表上的索引,以加快速度......所有这些似乎都很麻烦。

我应该用Java还是Python编写代码?我应该使用Alteryx还是Lavastorm?这是理想情况下我应该使用Hadoop吗?

0 个答案:

没有答案