自动提取来自第三方客户和供应商网站的报告的首选方法是什么?
其他信息:
最终计划是安排在特定频率上提取这些报告。该过程需要自动化,并且还应提供有关故障/成功加载操作的提示。
我希望这是一个高度自定义的脚本,但是如果有人知道我解决这个问题的托管ETL /中间件解决方案,那也没关系。
非常有兴趣了解我们如何处理上述问题。
答案 0 :(得分:0)
您可以使用Apache Airflow。
它是由AirBnB创建的基于Python的cron / ETL框架。因此,使用Python脚本可以解决下载问题,Airflow可以让您设置日程安排。
这仅仅来自经验,但是:更好地采用可以帮助您处理案例的软件而非高度自定义的脚本 - 因为最终,此脚本将变得如此复杂,将无法再维护。