我正在使用Anaconda
,spark 1.3
和hadoop
。我已将xml
个文档列表存储在hdfs
。
我必须使用python脚本加载xml文档,以使用spark找出重复的文档。
示例:
conf = SparkConf().setAppName("Sample").setMaster("local[*]")
sc = SparkContext(conf=conf)
dir = sc.textFile("hdfs://XXXXXXX")
configfiles = [os.path.join(dirpath, f) for dirpath, dirnames, files in os.walk(dir)for f in files if f.endswith('.xml')]
在这方面我遇到了一些错误:
TypeError: coercing to Unicode: need string or buffer, RDD found
hdfs:// xxxxxx MapPartitionsRDD [1] at TextFile at NativeMethodAccessorImpl.java:2
我使用bloom过滤器通过生成哈希值来查找重复项。这不是问题。
通过访问本地存储的文档,但无法处理hdfs存储的文档。
有人可以帮我解决这个问题吗?
提前致谢