如何从Spark中的文件夹中读取特定时间间隔内的数据?
从外部源通过FTP标记文件和数据文件放到文件夹中.Flg文件保存有关所有文件的信息(如元数据文件)。我应该通过读取标记文件来处理所有文件.I我是新兴的火花世界。请建议这种方法。
Ex: - 一个flg文件。 N没有包含.csv和xml
的tar文件答案 0 :(得分:0)
如果您在独立系统上运行Spark,那么玉米作业应该足以安排您的火花作业。
如果您在群集上运行,那么您还有更多选项,例如: OoZie,Airflow。
Flow会是这样的:
您可以根据以下几点调整cron作业时间:
如果X太小,如1秒,最好在程序中使用睡眠并定期轮询。