应用错误收集

使用spark streaming filestream流式传输pdf文件

时间：2016-07-31 11:38:44

标签： apache-spark spark-streaming

我正在构建一个扫描pdf文件并从中提取数据的应用程序。

我已经构建了一个使用spark core进行批处理的应用程序，但现在我希望从目录中连续流式传输数据。

如何使用spark streaming filestream方法从目录中读取pdf文件？

这个目录应该是一个hdfs目录吗？

提前感谢。

0 个答案:

没有答案