应用错误收集

我正在使用Anaconda，spark 1.3和hadoop。我已将xml个文档列表存储在hdfs。

中的特定目录中

我必须使用python脚本加载xml文档，以使用spark找出重复的文档。

示例：

conf = SparkConf().setAppName("Sample").setMaster("local[*]")
sc = SparkContext(conf=conf)
dir = sc.textFile("hdfs://XXXXXXX")
configfiles = [os.path.join(dirpath, f) for dirpath, dirnames, files in os.walk(dir)for f in files if f.endswith('.xml')]

在这方面我遇到了一些错误：

TypeError: coercing to Unicode: need string or buffer, RDD found

hdfs：// xxxxxx MapPartitionsRDD [1] at TextFile at NativeMethodAccessorImpl.java:2

我使用bloom过滤器通过生成哈希值来查找重复项。这不是问题。

通过访问本地存储的文档，但无法处理hdfs存储的文档。

有人可以帮我解决这个问题吗？

提前致谢

如何使用MapReduce概念在HDFS

0 个答案: