应用错误收集

Apache spark - 处理自动更新输入

时间：2014-11-19 05:57:13

标签： hadoop bigdata apache-spark

我是最近新兴的，并且最近使用它进行一些批处理。目前我有一个新的要求，并坚持如何处理它。我有一个必须处理的文件，但是这个文件可以定期更新。我希望处理初始文件，并且当文件有更新时，我希望触发spark操作，并且这次应该只对更新的部分进行操作。任何接近这一点的方法都会有所帮助。一个我愿意将任何其他技术与火花结合使用。这些文件通常位于文件系统上，大小可能是几GB。

1 个答案:

答案 0 :(得分：0)

单独Spark无法识别文件是否已更新。当第一次阅读文件时它就完成了它的工作。

默认情况下，Spark不知道文件已更新，也不知道文件的哪些部分是更新。

您应该使用文件夹，Spark可以在文件夹上运行，并且可以识别是否有要处理的新文件 - ＆gt; sc.textFile（PATH_FOLDER）...