spark-streaming - 在S3上激活textFileStream

在S3上激活textFileStream

时间：2016-11-09 11:48:27

标签： spark-streaming

文件名是否包含要拾取的tetFileStream的编号？仅当文件名包含数字时，我的程序才会获取新文件。忽略所有其他文件，即使它们是新文件。是否有任何设置需要更改以获取所有文件？请帮忙

2 个答案:

答案 0 :(得分：0)

没有。它会扫描目录以查找窗口中显示的新文件。如果您正在写入S3，请使用您的代码直接写入，因为文件在最终关闭（）之前不会出现 - 无需重命名。相反，如果您正在处理针对普通文件系统的文件流源，则应创建扫描目录并在最后重命名 - 否则可能会读取正在进行的工作文件。一旦阅读：永远不要重读。

答案 1 :(得分：0)

花了几个小时分析堆栈跟踪后，我发现问题是S3地址。我提供的是“s3：// mybucket”，它适用于Spark 1.6和Scala 2.10.5。在Spark 2.0（和Scala 2.11）上，它必须以“s3：// mybucket /”提供。可能是一些与Regex相关的东西。现在工作正常。感谢您的帮助。