我在python中用DirectRunner在本地测试了一个流(发布/订阅)。我想用Dataflow运行器运行它,然后打开pandora的框:NameErrors,requirements,setup.py等。测试并修复这些错误确实很繁琐,因为Dataflow开始处理第一个数据大约需要7分钟。是否有任何种类的远程运行程序(例如docker?)可以让我更快地进行迭代?
答案 0 :(得分:0)
Apache Beam只是一个Python包。这是数据流的核心。我不知道用于Cloud Dataflow的任何自动化工具(检查器等)。
我使用的过程是Python的Virtualenv。每当我安装另一个依赖项时,我都会更新requirements.txt文件。这样可以毫无问题地部署Dataflow作业。
在将文件上传到Dataflow之前,设置一个Docker容器进行本地测试也非常容易。生成容器时,只需在您的requirements.txt文件中添加一行apache-beam==2.9.0
(针对您的版本进行修改)。