实现分布式grep

时间:2014-09-01 02:44:10

标签: distributed-computing

我正在尝试实现分布式grep。如何从不同系统访问日志文件?我知道我需要使用网络,但我不知道你是使用ssh,telnet还是其他什么?关于我要从机器连接的机器,我需要了解哪些信息?我希望能够连接到不同的Linux机器并读取他们的日志文件并将其传回我的机器。

1 个答案:

答案 0 :(得分:1)

您的系统包含许多生成日志数据的Linux计算机(SERVER),以及您运行的一台计算机(CLIENT)。正确?

问题1)要访问的文件。  通常,日志文件由生成日志数据的软件锁定,因为软件必须能够随时将数据写入日志文件。 要从其他软件访问日志文件,您需要准备未锁定的日志数据文件。 对软件的设置或软件(程序)本身进行一些修改。

问题2)程序来提供日志文件。  要从SERVER获取日志数据,每个SERVER必须运行一些服务器程序。 对于远程shell访问,需要rshd(远程shell deamon)。 (ssh是rsh和安全通信的组合)。 对于FTP访问,需要ftpd(文件传输协议deamon)。 所需的软件取决于CLIENT如何访问SERVER。

问题3)分配了grep。  你使用“分配grep'”这个词。这句话是什么意思? 什么是分布在你的分发grep'? 在我脑海中出现了许多情景。 a)日志文件在SERVER中分发。所有日志数据都收集到CLIENT,grep程序适用于CLIENT收集的日志数据。 b)日志文件在SERVER中分发。 Grep函数也在每个SERVER上实现。 CLIENT请求每个SERVER获取应用于日志数据的grep的resule,并将结果收集到CLIENT。 等等  你的计划是什么?

问题4)访问SERVER。   安全通信的必要性取决于它们之间的机器和网络的位置。   如果所有机器都在房间/房屋中,并且机器之间的网络没有连接到因特网,则不需要安全通信。   如果日志数据是绝密的,您可能需要在网络上发送数据之前记录数据。   您的日志数据如何重要?

在开发的早期阶段,您应该确定上述内容。 这是我的建议。