我想阅读hdfs中的pdf文件并进行字数统计。我知道how to do this in Map Reduce。 我需要在Apache Spark中做同样的事情。非常感谢您的帮助。
答案 0 :(得分:0)
这样做: 修改您引用的博客文章中的代码,将PDF文字写入HDFS文件或事件为纯文本文件。该帖子引用了作者的另一篇帖子https://amalgjose.wordpress.com/2014/04/13/simple-pdf-to-text-conversion/
然后,一旦进行了PDF到文本转换,就可以从Spark中读取HDFS输入。
转到http://spark.apache.org/examples.html并查找Word Count示例。 Scala,Python,Java中有一些例子。这些示例甚至展示了如何指定HDFS位置,但您也可以使用本地文件系统。
祝你好运答案 1 :(得分:0)
SparkContext有一个名为hadoopFile的方法。您需要重写FileInputFormat,与how to read image using spark相同。 并阅读Pdf Input Format implementation for Hadoop Mapreduce