同义词的大型数据集中的WordNetSimalarity

时间:2013-05-10 09:04:13

标签: java tags semantics wordnet ws4j

我使用wordnet相似性java api来测量两个synset之间的相似性:

 public class WordNetSimalarity {
 private static ILexicalDatabase db = new NictWordNet();
 private static RelatednessCalculator[] rcs = {
                 new HirstStOnge(db), new LeacockChodorow(db), new Lesk(db),  new WuPalmer(db), 
                 new Resnik(db), new JiangConrath(db), new Lin(db), new Path(db)
                 };

 public static double computeSimilarity( String word1, String word2 ) {
         WS4JConfiguration.getInstance().setMFS(true);
         double s=0;
         for ( RelatednessCalculator rc : rcs ) {
                 s = rc.calcRelatednessOfWords(word1, word2);
                // System.out.println( rc.getClass().getName()+"\t"+s );
         }

        return s;
 } 

主要课程

      public static void main(String[] args) {
         long t0 = System.currentTimeMillis();

         File source = new File ("TagsFiltered.txt");
         File target = new File ("fich4.txt");
         ArrayList<String> sList= new ArrayList<>();

         try {
             if (!target.exists()) target.createNewFile();
            Scanner scanner = new Scanner(source);
            PrintStream psStream= new PrintStream(target);
            while (scanner.hasNext()) {
                sList.add(scanner.nextLine());                  
            }
            for (int i = 0; i < sList.size(); i++) {
            for (int j = i+1; j < sList.size(); j++) {
                psStream.println(sList.get(i)+" "+sList.get(j)+" "+WordNetSimalarity.computeSimilarity(sList.get(i), sList.get(j)));
            }
        }   

            psStream.close();
        } catch (Exception e) {e.printStackTrace();
        }


         long t1 = System.currentTimeMillis();
         System.out.println( "Done in "+(t1-t0)+" msec." );
 }

我的数据库包含595个同义词,它们的平均方法computeSimilarity将被调用(595 * 594/2) 要计算两个单词之间的相似性,它花费的时间超过5000 ms! 所以要完成我的任务我需要至少一周!!

我的问题是如何缩短这段时间!

如何改善表现?

4 个答案:

答案 0 :(得分:0)

我不认为语言是你的问题。

您可以帮助自己实现并行性。我认为这将是map reduce和Hadoop的一个很好的候选者。

答案 1 :(得分:0)

在涉及线程/分叉时,Perl与许多其他语言不同。

使Perl线程与其他线程不同的一个关键因素是默认情况下不共享数据。这使得线程更容易和更安全,您不必担心库或大多数代码的线程安全性,只需要担心线程位。然而,它可能是性能拖累和内存饥饿,因为Perl必须将解释器的副本和所有加载的模块放入每个线程。

说到分叉,我只会谈论Unix。 Perl使用线程在Windows上模拟fork,它可以工作,但它可能很慢而且有错误。

分叉优势

  • 创建分叉非常快
  • 非常健壮

分叉缺点

  • 流程之间的沟通可能很慢而且很尴尬

线程优势

  • 线程协调和数据交换相当容易
  • 线程相当容易使用

线程缺点

  • 每个线程占用大量内存
  • 线程启动缓慢
  • 线程可能有问题(你的perl越新越好)
  • 不跨线程共享数据库连接

通常,为了从Perl线程中获得良好的性能,最好启动一个线程池并重用它们。叉子可以更容易地创建,使用和丢弃。

对于这两种情况,您可能都想要管理您的工作人员。为了分叉,你将要使用Parallel :: ForkManager或Child。孩子特别好,因为它建立了进程间通信。

对于线程,您将要使用threads :: shared,Thread :: Queue和read perlthrtut。 此外,线程数将取决于您的计算机具有的核心数。如果你有四个核心,创建3个以上的线程并不是非常有用(主程序为3 + 1)。

老实说,线程/分叉可能不是可行的方法。实际上,在许多情况下,它们甚至可以因为开销而减慢速度。如果你真的需要速度,最好的方法就是通过分布式计算。我建议您研究某种分布式计算平台,以使您的运行时更好。如果您可以将search / compareTo空间的维度降低到小于n ^ 2,那么map reduce或Hadoop可能是一个不错的选择;否则,你只会有一大堆开销而没有使用Hadoop提供的真正可扩展性(@Thomas Jungblut)。

答案 2 :(得分:0)

您是否尝试过MatrixCalculator

答案 3 :(得分:0)

我不知道是否可以优化此算法。

但绝对可以更快地运行。在我的机器上,此操作所需的时间减少了两倍,因此如果您有8个i7内核,则需要15个小时来处理所有内容(如果您并行处理循环)

您可以在Amazon Web Services上获取虚拟机。因此,如果您获得多台计算机并在每台计算机上为不同的数据块运行多线程处理 - 您将在几个小时内完成。

从技术上讲,可以使用Hadoop,但如果你只需要运行一次 - 在我看来,使计算并行并在多台机器上启动会更简单。