作为对更大的python数据流管道的测试,我正在处理我的大小数据的子集:283.55 MB。我的数据流图的顶级父级是一个简单的beam.io.ReadFromText,大约需要30秒才能读取此文件。此30秒取自摘要步骤中的Wall time字段。但是,此步骤需要10分钟以上才能启动。任何人都可以回答为什么我有这么大的启动时间来处理如此少量的数据?应该注意的是,我有一个安装文件(--setup_file。\ setup.py),需求文件(--requirements_file requirements.txt)和--save_main_session True。我的需求文件的内容是:
numpy的== 1.13.3 大熊猫== 0.20.3 scikit学习== 0.19.1 SciPy的== 0.19.1
为什么我的工作需要这么长时间才能开始?我的要求真的需要很长时间才能在群集上安装吗?这是工作的一部分,暂时没有做任何事情: