找到Java中具有最高亲和力的值对?

时间:2016-09-06 17:21:54

标签: java arrays algorithm sorting data-structures

您好我正在研究算法问题集。

在file.txt文件中给出以下文件,

yahoo,ap42
google,ap42
twitter,thl76
google,aa314
google,aa314
google,thl76
twitter,aa314
twitter,ap42
yahoo,aa314

Web服务器在日志文件中记录页面视图。日志文件由每页一行视图组成。页面视图由页面ID和用户ID组成,用逗号分隔。一对页面的亲和力是查看两个页面的不同用户的数量。例如,在引用的日志文件中,雅虎和谷歌的亲和力是2(因为ap42同时查看了两者,aa314同时查看了两者)。

我的要求是创建一个算法,该算法将返回具有最高亲和力的页面对。

目前,我已经编写了下面的代码,但是,现在它没有返回具有最高亲和力的那对页面,任何建议我如何修改代码以使其工作?谢谢。 :

    Scanner in = new Scanner(new File("./file.txt"));
    ArrayList<String[]> logList = new ArrayList<String[]>();
    while (in.hasNextLine()) {
        logList.add(in.nextLine().split(","));
    }
    String currentPage;
    String currentUser;

    int highestCount =0;

    for (int i = 0; i < logList.size()-1; i++) {
        int affinityCount =0;
        currentPage = logList.get(i)[0];
        currentUser = logList.get(i)[1];
        for (int j = logList.size()-1; j > 0; j--) {
            if (i != j) {
                if (!currentPage.equals(logList.get(j)[0])
                        && currentUser.equals(logList.get(j)[1])) {
                    affinityCount++;
                    System.out.println("currentPage: "+currentPage+" currentUser: "+ currentUser);
                    System.out.println("logList.get(j)[0]: "+logList.get(j)[0]+" logList.get(j)[1]): "+ logList.get(j)[1]);
                    System.out.println(affinityCount);
                }
            }
        }
    }

1 个答案:

答案 0 :(得分:0)

我打算在这里编写算法。您可以将其转换为代码。

  1. 遍历文件并创建一个哈希映射。
  2. 完成此遍历后,您将获得每个用户查看的页面。
  3. 现在遍历此数据集。对于每个用户,请取出他查看的页面列表。进行页面对的所有可能组合,并将其放入最大堆中,并将值设置为1.如果组合存在于堆中,则递增该值。 确保你在比较时对待 - 雅虎,google与google,yahoo相同。

  4. 在这结束时,堆顶部的元素就是你的输出。