使用spark streaming filestream流式传输pdf文件

时间:2016-07-31 11:38:44

标签: apache-spark spark-streaming

我正在构建一个扫描pdf文件并从中提取数据的应用程序。

我已经构建了一个使用spark core进行批处理的应用程序,但现在我希望从目录中连续流式传输数据。

如何使用spark streaming filestream方法从目录中读取pdf文件?

这个目录应该是一个hdfs目录吗?

提前感谢。

0 个答案:

没有答案