数据流管道中的外部Python依赖项

时间:2017-10-11 17:20:52

标签: python google-cloud-dataflow apache-beam

可以将python依赖项加载到Google云数据流管道中吗?我想使用gensim's phrase modeler逐行读取数据来自动检测常用短语/双字母(两个经常出现在彼此旁边的单词)。所以管道的第一个贯穿是将每个句子传递给这个短语建模者。然后通过管道的第二次传递将采用相同的短语建模器并将该短语建模器应用于每个句子以识别应该一起建模的短语(如果'机器'和经常学习的话在语料库中彼此相邻,它们将被转换为单个单词' machine_learning'而不是。这是否可以在数据流中完成?是否可以传递构建/需求文件强制pip install gensim在工人机器上?

1 个答案:

答案 0 :(得分:3)

您可以查看此页面以管理管道中的依赖项:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies

示例:对于PyPI上的包,您可以通过添加以下命令行选项来使用需求文件:

- requirements_file requirements.txt