我是mahout的新手,我正试图找到如何利用我的数据集来呈现一些关系。我有一个排序数据集
IPs,timestamp,bytes_tranferred
我可以从这个集合中得到什么不同的关系,以便我可以使用mahout呈现一些有意义的值。目前我正计划使用此集合来表示哪个客户端(在IP列中)在给定时间内拥有更多流量。所以我想我必须将IP组合在一起。有没有更好的想法,我怎么能用JAVA代码做到这一点。请建议。
先谢谢
答案 0 :(得分:0)
基本上它取决于你的要求。你可以计算一段时间内的数据传输,ip在一段时间内进行数据传输等但计算不认为你需要mahout框架,简单的MR工作可以做所有这些。