从spark streaming中读取新的s3文件路径

时间:2017-02-10 04:33:39

标签: scala apache-spark amazon-s3 spark-streaming

我想使用spark streaming监视s3目录并返回添加到该目录的任何新文件的路径。 textFileStream和fileStream似乎都无法做到这一点。有没有办法完成我想做的事情?

编辑:Spark ver。 2.1.0

1 个答案:

答案 0 :(得分:0)

它使用s3a://执行此操作;我有测试证明它。

  1. 设置一个足够大的窗口来处理扫描目录的延迟,并清理它。
  2. 你可以直接写到目的地"目录&#34 ;;无需编写然后重命名。如果你这样做:文件被复制并拿起窗口。
  3. 不要尝试检查点