应用错误收集

我一直在阅读（通过谷歌搜索）一段时间，但仍然没有得到一个明确的答案，所以最终决定发布。

我试图清楚了解设置自动ETL流程的好流程。我们采取以下问题：

数据：

1500万行数据，其中有5000个产品。根据此数据，计算特定产品的累计销售额是否超过X.如果在该时间点超过阈值，则设置flag = 1.

人们如何处理这项任务？我的方法是尝试使用SQL Server，但有时候这很痛苦。特别是转换中的步骤需要我编写一个Stored Proc，它可以动态创建临时表上的索引，以加快速度......所有这些似乎都很麻烦。

我应该用Java还是Python编写代码？我应该使用Alteryx还是Lavastorm？这是理想情况下我应该使用Hadoop吗？