应用错误收集

时间：2016-01-23 21:47:11

标签： apache-spark mapreduce readfile rdd

我想阅读hdfs中的pdf文件并进行字数统计。我知道how to do this in Map Reduce。我需要在Apache Spark中做同样的事情。非常感谢您的帮助。

答案 0 :(得分：0)

这样做：修改您引用的博客文章中的代码，将PDF文字写入HDFS文件或事件为纯文本文件。该帖子引用了作者的另一篇帖子https://amalgjose.wordpress.com/2014/04/13/simple-pdf-to-text-conversion/

然后，一旦进行了PDF到文本转换，就可以从Spark中读取HDFS输入。

转到http://spark.apache.org/examples.html并查找Word Count示例。 Scala，Python，Java中有一些例子。这些示例甚至展示了如何指定HDFS位置，但您也可以使用本地文件系统。

祝你好运

答案 1 :(得分：0)

SparkContext有一个名为hadoopFile的方法。您需要重写FileInputFormat，与how to read image using spark相同。并阅读Pdf Input Format implementation for Hadoop Mapreduce