我有一个项目要求。我正在使用python脚本来分析数据。最初,我使用txt文件作为该python脚本的输入。但随着数据的增长,我必须将我的存储平台切换到Hadoop HDFS。如何将HDFS数据作为输入提供给python脚本?有什么办法吗?提前致谢。
答案 0 :(得分:3)
Hadoop Streaming API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
您需要了解的是: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
答案 1 :(得分:0)
除了其他方法,您还可以使用类似JDBC的编译,绑定,运行模型在Python脚本中嵌入Pig Latin语句和Pig命令。对于Python,请确保Jython jar包含在类路径中。有关详细信息,请参阅apache pig文档:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python