Question

您好我正在研究算法问题集。

在file.txt文件中给出以下文件，

yahoo,ap42
google,ap42
twitter,thl76
google,aa314
google,aa314
google,thl76
twitter,aa314
twitter,ap42
yahoo,aa314

Web服务器在日志文件中记录页面视图。日志文件由每页一行视图组成。页面视图由页面ID和用户ID组成，用逗号分隔。一对页面的亲和力是查看两个页面的不同用户的数量。例如，在引用的日志文件中，雅虎和谷歌的亲和力是2（因为ap42同时查看了两者，aa314同时查看了两者）。

我的要求是创建一个算法，该算法将返回具有最高亲和力的页面对。

目前，我已经编写了下面的代码，但是，现在它没有返回具有最高亲和力的那对页面，任何建议我如何修改代码以使其工作？谢谢。：

    Scanner in = new Scanner(new File("./file.txt"));
    ArrayList<String[]> logList = new ArrayList<String[]>();
    while (in.hasNextLine()) {
        logList.add(in.nextLine().split(","));
    }
    String currentPage;
    String currentUser;

    int highestCount =0;

    for (int i = 0; i < logList.size()-1; i++) {
        int affinityCount =0;
        currentPage = logList.get(i)[0];
        currentUser = logList.get(i)[1];
        for (int j = logList.size()-1; j > 0; j--) {
            if (i != j) {
                if (!currentPage.equals(logList.get(j)[0])
                        && currentUser.equals(logList.get(j)[1])) {
                    affinityCount++;
                    System.out.println("currentPage: "+currentPage+" currentUser: "+ currentUser);
                    System.out.println("logList.get(j)[0]: "+logList.get(j)[0]+" logList.get(j)[1]): "+ logList.get(j)[1]);
                    System.out.println(affinityCount);
                }
            }
        }
    }

Answer 1

我打算在这里编写算法。您可以将其转换为代码。

遍历文件并创建一个哈希映射。
完成此遍历后，您将获得每个用户查看的页面。
现在遍历此数据集。对于每个用户，请取出他查看的页面列表。进行页面对的所有可能组合，并将其放入最大堆中，并将值设置为1.如果组合存在于堆中，则递增该值。确保你在比较时对待 - 雅虎，google与google，yahoo相同。
在这结束时，堆顶部的元素就是你的输出。

找到Java中具有最高亲和力的值对？

1 个答案: