使用Spark有效地阅读PDF /文本/ word文件

时间:2017-05-20 05:46:50

标签: java apache-spark hdfs file-format

我正在对我的数据进行NLP(自然语言处理)处理。数据采用PDF /文本/ Word / HTML类型的文件形式。这些文件存储在本地磁盘上的嵌套目录结构中。

我独立的基于Java的NLP解析器可以读取输入文件,从中提取文本并对提取的文本进行NLP处理。

我正在转换基于Java的NLP解析器以在我的Spark群集上执行它。我知道Spark可以从目录中读取多个文本文件并转换为RDD以进行进一步处理。我的输入数据不仅包含在文本文件中,还包含多种不同的文件格式。

我的问题是:如何在我的基于Java的Spark程序中有效地读取输入文件(PDF / Text / Word / HTML),以便在Spark集群中处理这些文件。

1 个答案:

答案 0 :(得分:1)

文件可以通过

读取
sparkContext.binaryFiles()

然后可以由解析器处理。