标签: apache-spark spark-streaming
我正在构建一个扫描pdf文件并从中提取数据的应用程序。
我已经构建了一个使用spark core进行批处理的应用程序,但现在我希望从目录中连续流式传输数据。
如何使用spark streaming filestream方法从目录中读取pdf文件?
这个目录应该是一个hdfs目录吗?
提前感谢。