apache-spark - 无法从Spark流中的单个文件中读取流数据 - Thinbug

无法从Spark流中的单个文件中读取流数据

时间：2017-06-02 21:08:09

标签： apache-spark spark-streaming

我正在尝试从文本文件中读取流数据，该数据使用Spark流API＆＃34; textFileStream＆＃34;连续追加。但无法通过Spark流读取连续数据。如何在Spark中实现它？

1 个答案:

答案 0 :(得分：1)

这是一种预期的行为。对于file based sources（如fileStream）：

必须通过原子移动或将数据重命名为数据目录，在dataDirectory中创建文件。

移动后，不得更改文件。因此，如果连续追加文件，则不会读取新数据。

如果你想连续阅读，你必须创建自己的源，或者使用单独的进程来监视更改，并将记录推送到例如Kafka（尽管很少将Spark与支持的文件系统结合起来追加）。