通过增加频率来编写Java索引错误

时间:2016-05-24 19:40:20

标签: java indexing stemming

我有一个问题是增加每个文件中出现单词的频率, 我测试了3个相同的文件并在每个文件中获得了不同的结果 示例:每个文件中的单词" program"发生了13次 enter image description here

但我的输出是: enter image description here

*搜索字段中的单词为" programa"而不是因为词干功能而编程

[program]
----------------
Doc: site1.html Freq: 21
Doc: site2.html Freq: 11
Doc: site3.html Freq: 1

没有一个输出是正确的。

输出必须是:

[program]
----------------
Doc: site1.html Freq: 13
Doc: site2.html Freq: 13
Doc: site3.html Freq: 13

文档类:

public class Documento {

    private String docid;
    private int frequencia;

    public Documento(String docid, int frequencia) {
        this.docid = docid;
        this.frequencia = frequencia;
    }

    public String getDocid() {
        return docid;
    }

    public int getFrequencia() {
        return frequencia;
    }

    public void setFrequencia(int frequencia) {
        this.frequencia = frequencia;
    }

    @Override
    public boolean equals(Object o) {
        if ((o instanceof Documento) && docid == ((Documento) o).docid && frequencia == ((Documento) o).frequencia) {
            return true;
        }
        return false;
    }

插入和查找文档的功能:

        public class Dicionario {

    public Map<String, List<Documento>> indice = new HashMap<>();

    public void InsereDicionario(String palavra, String docid) {
        if (!indice.containsKey(palavra)) {
            indice.put(palavra, new ArrayList<Documento>());
            indice.get(palavra).add(new Documento(docid, 1));
        } else {
            boolean inserido = false;
            List<Documento> lista = indice.get(palavra);
            for (int i = 0; i < lista.size(); i++) {
                Documento d = lista.get(i);
                if (d.getDocid().equals(docid)) {
//                    indice.get(palavra).add(new Documento(docid, 1));
                    inserido = true;
                } else {
                    d.setFrequencia(d.getFrequencia() + 1);
                }
                System.out.println("");
            }
            if (!inserido) {
                indice.get(palavra).add(new Documento(docid, 1));
            }
        }
    }

    public String Busca(String palavra) {
        String saida = "";
        System.out.println("Buscando [" + palavra + "]");
        List<Documento> list = new ArrayList();

        for (String p : indice.keySet()) {
            if (p.equals(palavra)) {
                list.addAll(indice.get(p));
                for (Documento d : indice.get(p)) {
                    System.out.println("Doc: " + d.getDocid() + " Freq: " + d.getFrequencia());
                    saida += "Doc: " + d.getDocid() + " Freq: " + d.getFrequencia() + "".trim() + "\n";
                }
            }
        }
        return saida;
    }

用所有单词调用Buscar(搜索功能)的功能。

for (String palavra : query.split(" ")) {
    resultado += ("\n[" + palavra + "]\n----------------\n");
    resultado += dic.Busca(palavra.trim());
}

1 个答案:

答案 0 :(得分:0)

看看这个:

               if (d.getDocid().equals(docid)) {
//                    indice.get(palavra).add(new Documento(docid, 1));
                    inserido = true;
                } else {
                    d.setFrequencia(d.getFrequencia() + 1);
                }

如果在列表中找到dociid - &gt;然后不要 否则(从列表检索的当前文档不等于docid) - &gt;然后递增计数器 交换这些操作,或在条件中使用否定。