Apache spark - 处理自动更新输入

时间:2014-11-19 05:57:13

标签: hadoop bigdata apache-spark

我是最近新兴的,并且最近使用它进行一些批处理。 目前我有一个新的要求,并坚持如何处理它。 我有一个必须处理的文件,但是这个文件可以定期更新。我希望处理初始文件,并且当文件有更新时,我希望触发spark操作,并且这次应该只对更新的部分进行操作。任何接近这一点的方法都会有所帮助。一个 我愿意将任何其他技术与火花结合使用。这些文件通常位于文件系统上,大小可能是几GB。

1 个答案:

答案 0 :(得分:0)

单独Spark无法识别文件是否已更新。 当第一次阅读文件时它就完成了它的工作。

默认情况下,Spark不知道文件已更新,也不知道文件的哪些部分是更新。

您应该使用文件夹,Spark可以在文件夹上运行,并且可以识别是否有要处理的新文件 - > sc.textFile(PATH_FOLDER)...