答案 0 :(得分:1)
最好的方式是非常主观的术语。它主要取决于数据到达特定位置后应该发生什么样的数据,频率和类型的事情。
Apache flume可以监控特定文件夹的数据可用性,并将其推送到HDFS 原样等任何接收器。 Flume适用于流式传输数据。但它只执行一项特定工作 - 只是将数据从一个地方移动到另一个地方。
但另一方面,请查看Oozie协调员。协调员具有数据可用性触发器,使用oozie,您可以使用spark,hive,pig等工具在数据到达后执行所有类型的ETL操作,并使用shell操作将其推送到hdfs。您可以安排作业在特定时间,频率下运行,或者如果出现问题,让工作向您发送电子邮件...