我们可以将Hadoop与Python集成吗?

时间:2016-06-21 06:25:10

标签: python hadoop hdfs bigdata

我有一个项目要求。我正在使用python脚本来分析数据。最初,我使用txt文件作为该python脚本的输入。但随着数据的增长,我必须将我的存储平台切换到Hadoop HDFS。如何将HDFS数据作为输入提供给python脚本?有什么办法吗?提前致谢。

2 个答案:

答案 0 :(得分:3)

Hadoop Streaming API:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

您需要了解的是: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

答案 1 :(得分:0)

除了其他方法,您还可以使用类似JDBC的编译,绑定,运行模型在Python脚本中嵌入Pig Latin语句和Pig命令。对于Python,请确保Jython jar包含在类路径中。有关详细信息,请参阅apache pig文档:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python