我的服务器X安装了Hadoop和Flume,而且我的服务器Y既没有,也没有同一个网络。
服务器Y当前将数据存储到一个连续写入的日志文件中,直到在当天结束时附加日期戳并启动新的日志文件。
目标是使用flume将日志从服务器Y直播到服务器X,处理数据并将其放入HDFS。
我认为最好的方法是让服务器Y中的syslog守护进程通过TCP转发这些事件,但是在组织内部需要很多步骤才能知道是否可以这样做。另一个选项是(选项2 :)以某种方式从服务器Y的目录中的文件中读取,或者(选项3 :)将目录安装到服务器X,将目录视为假脱机目录。选项2的问题在于服务器Y没有安装水槽,这样做是不可能的。选项2和3的问题在于传入的信息可能不是活动的,并且在每天结束的过渡期间可能存在数据丢失。还有一个身份验证问题,必须使用单独的用户名和密码登录到服务器Y.我们显然无法将信息硬编码到连接配置中。
我的主要问题是:是否需要在源服务器上安装Flume才能使此设置生效?水槽代理可以专门在服务器X上运行吗?哪个选项是理想的?