Question

我有一个项目要求。我正在使用python脚本来分析数据。最初，我使用txt文件作为该python脚本的输入。但随着数据的增长，我必须将我的存储平台切换到Hadoop HDFS。如何将HDFS数据作为输入提供给python脚本？有什么办法吗？提前致谢。

Answer 1

Hadoop Streaming API：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

您需要了解的是： http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

Answer 2

除了其他方法，您还可以使用类似JDBC的编译，绑定，运行模型在Python脚本中嵌入Pig Latin语句和Pig命令。对于Python，请确保Jython jar包含在类路径中。有关详细信息，请参阅apache pig文档：https://pig.apache.org/docs/r0.9.1/cont.html#embed-python

我们可以将Hadoop与Python集成吗？

2 个答案: