如何从单词相似性到整体句子相似性

时间:2016-03-22 14:13:41

标签: java stanford-nlp wordnet sentence-similarity ws4j

我使用WS4J实现了句子相似性方法。

我读过两篇句子中基于单词相似度的文章中的句子相似度。但我找不到一种方法,它根据相似词来计算和返回整个句子相似性的单个值。

本网站sentence-similarity-using-ws4j

提出了类似的问题

正如您所看到的,我已经设法使用WS4J进行编码,直到句子中的任何单词找到另一个句子中的synset匹配(并且匹配值大于0.9)返回匹配消息。但我猜这不是一个好方法。

我找到了Yuhua et [2]的文章。一切都非常有用,但无法弄清楚他们用于整体句子相似性的方法。

public static String sentenceSim(String se1, String se2, RelatednessCalculator rc) {
        String similarityMessage = "";
        String similarityMessage2 = "";

        if (se1 == null || se2 == null) {
            return "null";
        }

        if (nlp == null) {
            nlp = OpenNLPSingleton.INSTANCE;
        }
        // long t00 = System.currentTimeMillis();
        String[] words1 = nlp.tokenize(se1); // base
        String[] words2 = nlp.tokenize(se2); // sentence
        String[] postag1 = nlp.postag(words1);
        String[] postag2 = nlp.postag(words2);


        String u = "";
        int matchCount = 0;     

        int counter = 0;
        String mLC = rc.toString().toLowerCase();
        for (int j = 0; j < words2.length; j++) { // sentence
            String pt2 = postag2[j];
            String w2 = MorphaStemmer.stemToken(words2[j].toLowerCase(), pt2);
            POS p2 = mapPOS(pt2);
            // System.out.print(words2[j]+"(POS "+pt2+")");
            for (int i = 0; i < words1.length; i++) { // base
                String pt1 = postag1[i];
                String origWord1 = words1[i];
                String origWord2 = words2[j];
                String w1 = MorphaStemmer.stemToken(words1[i].toLowerCase(), pt1);
                POS p1 = mapPOS(pt1);
                String popup = mLC + "( " + w1 + "#" + (p1 != null ? p1 : "INVALID_POS") + " , " + w2 + "#"
                        + (p2 != null ? p2 : "INVALID_POS") + ")";
                String dText;
                // boolean acceptable = rc.getPOSPairs().isAcceptable(p1, p2);

                // ALL WORDS FROM BASE HAS TO MATCH - IF ONE DOESNT,
                // THEN ITS NOT MATCH
                double d = -1;
                if (p1 != null && p2 != null) {//
                    double r = wordSim(w1, w2, rc);
                    if (r > 0.9) {
                        matchCount++;
                        similarityMessage += "\t\t Similarity Found (Base : sentence) ('Base Word: " + origWord1 + "=" + w1 + " "
                                + p1 + "', Sentence Word: '" + origWord2 + "=" + w2 + " " + p2 + "') =  " + r + "\n";
                        System.out.println(similarityMessage);
                    }
                }
            }
            // System.out.println();
        }

        // output if all words in sentence 1 have found matches in sentences 2
        if (matchCount == words1.length) {          
            similarityMessage2 = "\t\tFound all matches for base  in sentence: ";
            System.out.println("\t\tBase " + se1);
            System.out.println("\t\tFound all matches for base  in sentence: ");
            System.out.println(similarityMessage);
        }
        similarityMessage = "";
        return similarityMessage;
    } 

我已经用Java完成了我的代码,所以我一直在寻找一些java实现。

[2]:Li,Y.,McLean,D.,Bandar,Z。A.,O&#39; shea,J。D.,&amp;克罗克特,K。(2006年)。基于语义网和语料库统计的句子相似度。知识与数据工程,IEEE Transactions on,18(8),1138-1150。

1 个答案:

答案 0 :(得分:1)

计算句子相似度有不同的方法,方法可能取决于您的用例或要求。 这样做的一种着名方法是考虑句子中最重要的句法单位,这对句子的意义有重大影响。 (例如:动词,名词,副词,形容词等)。同样使用向量空间模型来计算两个句子之间的相似性是一种非常准确的方法,并且有很多关于这个区域的资源。