标签: python hadoop hadoop-streaming
hadoop流中是否有任何标准方法来处理类似于DistributedCache的依赖项(在java MR中)
比如说我有一个python模块用于所有地图任务。我怎么能实现它?
答案 0 :(得分:0)
您可以使用-file参数指定python模块:
请参阅http://hadoop.apache.org/docs/r0.18.3/streaming.html
如果您有依赖模块等,则可以指定多个文件参数。