您好我正在研究算法问题集。
在file.txt文件中给出以下文件,
yahoo,ap42
google,ap42
twitter,thl76
google,aa314
google,aa314
google,thl76
twitter,aa314
twitter,ap42
yahoo,aa314
Web服务器在日志文件中记录页面视图。日志文件由每页一行视图组成。页面视图由页面ID和用户ID组成,用逗号分隔。一对页面的亲和力是查看两个页面的不同用户的数量。例如,在引用的日志文件中,雅虎和谷歌的亲和力是2(因为ap42同时查看了两者,aa314同时查看了两者)。
我的要求是创建一个算法,该算法将返回具有最高亲和力的页面对。
目前,我已经编写了下面的代码,但是,现在它没有返回具有最高亲和力的那对页面,任何建议我如何修改代码以使其工作?谢谢。 :
Scanner in = new Scanner(new File("./file.txt"));
ArrayList<String[]> logList = new ArrayList<String[]>();
while (in.hasNextLine()) {
logList.add(in.nextLine().split(","));
}
String currentPage;
String currentUser;
int highestCount =0;
for (int i = 0; i < logList.size()-1; i++) {
int affinityCount =0;
currentPage = logList.get(i)[0];
currentUser = logList.get(i)[1];
for (int j = logList.size()-1; j > 0; j--) {
if (i != j) {
if (!currentPage.equals(logList.get(j)[0])
&& currentUser.equals(logList.get(j)[1])) {
affinityCount++;
System.out.println("currentPage: "+currentPage+" currentUser: "+ currentUser);
System.out.println("logList.get(j)[0]: "+logList.get(j)[0]+" logList.get(j)[1]): "+ logList.get(j)[1]);
System.out.println(affinityCount);
}
}
}
}
答案 0 :(得分:0)
我打算在这里编写算法。您可以将其转换为代码。
现在遍历此数据集。对于每个用户,请取出他查看的页面列表。进行页面对的所有可能组合,并将其放入最大堆中,并将值设置为1.如果组合存在于堆中,则递增该值。 确保你在比较时对待 - 雅虎,google与google,yahoo相同。
在这结束时,堆顶部的元素就是你的输出。