当我开始云数据流工作时,我首先导入所需的库(在python中)。例如:
google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0
这通常每次需要花费几分钟,并且每次使用Cloud Dataflow时都使用相同的环境。有没有一种方法可以“保存”该环境,以便机器启动时已经“就绪”?我看过“模板”,但是只提到创建变量之类的东西,实际上并没有在环境中安装库(或者至少我没有看到过)。
如果有人可以向我展示将库保存到环境的示例,那将是很好的,例如:
elasticsearch==6.0.0
答案 0 :(得分:0)
据我所知,您是通过某些服务器运行数据流作业的。
在这种情况下,您可以为PyPI依赖关系指定库let data = [
["a", "b"],
["c", "d"],
["b", "d"],
["c", "a", "b"],
["a", "b", "c", "d"]
];
let result = [].concat(...data).reduce((r, c) => (r[c] = (r[c] || 0) + 1, r), {});
console.log(result);
标志,为非PyPI依赖关系指定--requirements_file
。您有here个示例和更多详细信息。