标签: hadoop hadoop2
场景:日常数据源正在提供文件,需要将其提取到HDFS中。
条件:数据源将推送文件。我们无法从数据源中拉出文件。
我们的解决方案是数据源将文件通过SFTP放置在边缘节点上,然后一个进程将拾取这些文件并传输这些文件并推送到HDFS。
在边缘节点上存储数据是一种好习惯吗?边缘节点应该不是存储层吗?
如果用于拾取文件的进程未运行,并且数据开始在边缘节点上收集,则可能是磁盘已满,可能会由于内存不足等原因而影响其他进程。
将文件从数据源移动到HDFS的当前行业惯例是什么?
-谢谢大卫。