Dataflow SDK中是否有允许我在工作线上暂存资源文件的内容?我有特定的静态文件资源,我需要在文件系统上为执行NLP的自定义DoFn提供这些资源。我的目标是从类加载器获取zip文件资源,并在工作程序初始化时仅在工作文件系统上解压缩一次,而不是尝试在自定义DoFn中执行此操作。
答案 0 :(得分:3)
您可以指定--filesToStage
来指定应该暂存的文件。有几个问题需要注意:
--filesToStage
设置为类路径中的所有文件,这可确保运行管道所需的代码可供工作人员使用。如果您覆盖此选项,则需要确保它包含您的代码。--filesToStage=foo.zip
,则文件名将为foo-<someHash>.zip
。您需要迭代类路径中的所有文件以找到合适的文件。请参阅https://cloud.google.com/dataflow/pipelines/executing-your-pipeline中--filesToStage
上的文档
了解更多信息。