我目前正在实习的公司希望我安排已经存在的Web刮板到Airflow。我对网络爬虫和气流的使用经验为0,但是,我正在写信寻求帮助。
首先,该网络爬虫使用芹菜,硒和rabbitMQ,并且在没有气流的情况下运行良好。现在,我的问题是,要将这个过程转移到气流上,我需要做的就是将功能导入到我希望创建的气流DAG中,并按照我们要调用它们的相应顺序调用它们吗?还是这是一个非常简单的事物视图?我有什么需要记住的吗?在过去的一周中,我一直在尝试了解气流,但是,我似乎无法在扩大规模以适应公司代码方面取得突破。
完整的菜鸟问题的道歉。
答案 0 :(得分:0)
如果您已经将其用作脚本,则要做的就是将运行整个代码的函数导入DAG,并按照所需的时间间隔对其进行调度。