Question

当我开始云数据流工作时，我首先导入所需的库（在python中）。例如：

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

这通常每次需要花费几分钟，并且每次使用Cloud Dataflow时都使用相同的环境。有没有一种方法可以“保存”该环境，以便机器启动时已经“就绪”？我看过“模板”，但是只提到创建变量之类的东西，实际上并没有在环境中安装库（或者至少我没有看到过）。

如果有人可以向我展示将库保存到环境的示例，那将是很好的，例如：

elasticsearch==6.0.0

Answer 1

据我所知，您是通过某些服务器运行数据流作业的。

在这种情况下，您可以为PyPI依赖关系指定库let data = [ ["a", "b"], ["c", "d"], ["b", "d"], ["c", "a", "b"], ["a", "b", "c", "d"] ]; let result = [].concat(...data).reduce((r, c) => (r[c] = (r[c] || 0) + 1, r), {}); console.log(result);标志，为非PyPI依赖关系指定--requirements_file。您有here个示例和更多详细信息。

为云数据流创建“环境”

1 个答案: