我刚开始使用Hadoop并编写一些Map Reduce作业。我正在寻找有关在python中编写MR工作的帮助,这可以让我收集一些电子邮件并将它们放入HDFS中,以便我可以搜索电子邮件的文本或附件?
谢谢!
答案 0 :(得分:3)
为了处理电子邮件,stdlib中的email
模块可能会很方便。对于Hadoop方面,Using Python with Hadoop可能很方便,尽管有很多Google搜索结果可供选择。
答案 1 :(得分:1)
是的,如果你想使用编写Python代码来运行MapReduce作业,你需要使用hadoop流