为云数据流创建“环境”

时间:2019-01-18 00:48:07

标签: python dataframe google-cloud-dataflow apache-beam

当我开始云数据流工作时,我首先导入所需的库(在python中)。例如:

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

这通常每次需要花费几分钟,并且每次使用Cloud Dataflow时都使用相同的环境。有没有一种方法可以“保存”该环境,以便机器启动时已经“就绪”?我看过“模板”,但是只提到创建变量之类的东西,实际上并没有在环境中安装库(或者至少我没有看到过)。

如果有人可以向我展示将库保存到环境的示例,那将是很好的,例如:

elasticsearch==6.0.0

1 个答案:

答案 0 :(得分:0)

据我所知,您是通过某些服务器运行数据流作业的。

在这种情况下,您可以为PyPI依赖关系指定库let data = [ ["a", "b"], ["c", "d"], ["b", "d"], ["c", "a", "b"], ["a", "b", "c", "d"] ]; let result = [].concat(...data).reduce((r, c) => (r[c] = (r[c] || 0) + 1, r), {}); console.log(result);标志,为非PyPI依赖关系指定--requirements_file。您有here个示例和更多详细信息。