Apache Spark Word依靠PDF文件

时间:2016-01-23 21:47:11

标签: apache-spark mapreduce readfile rdd

我想阅读hdfs中的pdf文件并进行字数统计。我知道how to do this in Map Reduce。 我需要在Apache Spark中做同样的事情。非常感谢您的帮助。

2 个答案:

答案 0 :(得分:0)

这样做: 修改您引用的博客文章中的代码,将PDF文字写入HDFS文件或事件为纯文本文件。该帖子引用了作者的另一篇帖子https://amalgjose.wordpress.com/2014/04/13/simple-pdf-to-text-conversion/

然后,一旦进行了PDF到文本转换,就可以从Spark中读取HDFS输入。

转到http://spark.apache.org/examples.html并查找Word Count示例。 Scala,Python,Java中有一些例子。这些示例甚至展示了如何指定HDFS位置,但您也可以使用本地文件系统。

祝你好运

答案 1 :(得分:0)

SparkContext有一个名为hadoopFile的方法。您需要重写FileInputFormat,与how to read image using spark相同。 并阅读Pdf Input Format implementation for Hadoop Mapreduce