Question

我正在对我的数据进行NLP（自然语言处理）处理。数据采用PDF /文本/ Word / HTML类型的文件形式。这些文件存储在本地磁盘上的嵌套目录结构中。

我独立的基于Java的NLP解析器可以读取输入文件，从中提取文本并对提取的文本进行NLP处理。

我正在转换基于Java的NLP解析器以在我的Spark群集上执行它。我知道Spark可以从目录中读取多个文本文件并转换为RDD以进行进一步处理。我的输入数据不仅包含在文本文件中，还包含多种不同的文件格式。

我的问题是：如何在我的基于Java的Spark程序中有效地读取输入文件（PDF / Text / Word / HTML），以便在Spark集群中处理这些文件。

Answer 1

文件可以通过

读取

sparkContext.binaryFiles()

然后可以由解析器处理。