我的目标是识别与Hadoop集群相关的网络数据包,因为在我正在使用的集群中,还有其他服务可以生成与Hadoop无关的网络流量。
我假设我的Hadoop集群独特地使用HDFS和MapReduce,而不是其他应用程序,如HBase,Pig,Hive等......
有没有办法过滤Hadoop数据包?例如,如果Hadoop使用修复源或目标端口(至少一个,源或destionation)
更新:我正在使用Apache Hadoop 1.0.3和libpcap来嗅探数据包
答案 0 :(得分:0)
我不确定您使用的是哪个Hadoop发行版,或者哪个数据包嗅探器,但您应该可以采用几种不同的方法。
假设您正在使用Hadoop服务的默认端口,您应该能够在NameNode和DataNode流量的目标端口上键入,以及JobTracker / TaskTracker。 This link由Cloudera发布,但它们使用与Hortonworks或任何其他Apache Hadoop发行版相同的默认端口,因此该信息应适用于您的用例。
此外,Wireshark似乎有一个HDFS协议dissector,这意味着它应该是它可以开箱即用的类型之一。如果您不熟悉Wireshark作为网络数据包分析器,我建议您查看它。
希望这有帮助 - 祝你好运!