scala - Spark结构化流处理以前的文件

Spark结构化流处理以前的文件

时间：2018-03-13 22:21:19

标签： scala apache-spark

我正在Spark Structures Streaming中实现文件源，并且如果文件已被修改，则希望再次处理相同的文件名。基本上是对文件的更新。目前，Spark现在处理后不再处理相同的文件名。与使用Dstream的Spark Streaming相比，似乎有限。有没有办法做到这一点？ Spark Structured Streaming不会在任何地方记录它，只会处理具有不同名称的新文件。

1 个答案:

答案 0 :(得分：1)

我认为这有点像反模式，但您可以挖掘检查点数据并删除该原始文件的条目。

尝试在/ checkpoint / sources / / 文件中查找原始文件名，删除文件或条目。这可能会导致流再次获取文件名。我自己没试过。

如果这是一次性手动更新，我只需将文件名更改为新内容并将其放在源目录中。这种方法无法维护或自动化。

带水槽的结构化流媒体
结构化流将Parquet文件写入Hadoop
使用Spark Structured Streaming处理后删除文件
Spark结构化流媒体和过滤器
Spark结构化流式查询异常
Spark结构化流处理以前的文件
Structured Streaming Python API
CSV的结构化流
Spark结构化流式传输大文件
Spark结构化流不从先前的偏移量重新启动

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？