标签: python hadoop hdfs
我有一个需要处理大文件的python脚本。如果我减少原始文件并运行脚本,代码工作正常,但是当我在原始数据上运行脚本时,我的脚本将永远执行。我正在考虑使用HDFS来存储文件并从python脚本中读取它。但是为了使用HDFS,我必须将我的python脚本转换为map reduce程序,或者我可以使用相同的代码。
答案 0 :(得分:3)
您需要调整Python代码,然后使用Hadoop Streaming来处理它。这正是流式传输的情况。