如何使用MapReduce概念在HDFS

时间:2015-12-18 11:48:25

标签: python apache-spark hdfs pyspark

我正在使用Anacondaspark 1.3hadoop。我已将xml个文档列表存储在hdfs

中的特定目录中

我必须使用python脚本加载xml文档,以使用spark找出重复的文档。

示例:

conf = SparkConf().setAppName("Sample").setMaster("local[*]")
sc = SparkContext(conf=conf)
dir = sc.textFile("hdfs://XXXXXXX")
configfiles = [os.path.join(dirpath, f) for dirpath, dirnames, files in os.walk(dir)for f in files if f.endswith('.xml')]

在这方面我遇到了一些错误:

TypeError: coercing to Unicode: need string or buffer, RDD found

hdfs:// xxxxxx MapPartitionsRDD [1] at TextFile at NativeMethodAccessorImpl.java:2

我使用bloom过滤器通过生成哈希值来查找重复项。这不是问题。

通过访问本地存储的文档,但无法处理hdfs存储的文档。

有人可以帮我解决这个问题吗?

提前致谢

0 个答案:

没有答案