如何根据wordnet事件synset提取单词?

时间:2017-07-01 00:05:50

标签: nlp wordnet

我想实现“没有模板的基于模板的信息提取”论文,第一步,我必须做“群集事件”。我有MUC数据集,并对其进行了解析和标记。但有一些我无法理解的东西。 在论文中,它说:“我们聚集事件模式来创建模板。事件模式是(1)动词,(2)事件synset下的WordNet中的名词,或(3)动词和头部词它的句法对象。每个例子包括(1)'爆炸',(2)'爆炸',和(3)'爆炸:炸弹'。“ 我想知道这三个条件是什么。如何应用它们来聚类我的数据?我的意思是我应该首先搜索wordnet并删除一些单词?我只是不知道如何实现目标。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

我正在撰写此回复以帮助未来的读者。

你提出了4个问题。我会尽力解决所有问题。您的所有问题都围绕着论文的一个独特部分:模板主题的近似使用了作者的术语和#34;事件模式"。

  1. 我想知道这三个条件是什么
  2. 三个条件"是事件模式的定义(这在论文中有解释---它也在你引用的文本中)。

    作者将事件模式定义为(a)动词,(b)您可以从WordNet上的事件同义词集中提取的名词(召回)有六种类型的事件在语料库中有模板,即轰炸,绑架,攻击等,而(c)动词与其对象头部的串联。

    1. 如何将其应用于群集数据
    2. 您没有使用它们来聚类您的数据" - 它们是要聚类的数据。您应该从文档中提取这些所谓的事件模式,并使用[2,p978-979]中讨论的两种算法对它们进行聚类。这些文件来自恐怖主义语料库[1]。

      1. 我的意思是我应该首先搜索wordnet并删除一些字词吗?
      2. 没有。您应该确定哪些名词属于Wordnet上的事件的同义词。

        1. 我只是不知道如何实现目标
        2. 您需要改进阅读论文的方式。读一篇论文并做笔记。之后,重新阅读论文并重新审视您记下的问题和要点。有关提示,请参见[3]。 如果您以这种方式阅读,您应该能够充分理解以实现目标。

          <强>参考文献

          1. Beth Sundheim,1991年。第三次消息理解评估和会议(MUC-3):第一阶段状态报告。在消息理解会议的会议记录中
          2. Nathaneal Chambers,Dan Jurafsky,2011年。没有模板的基于模板的信息提取。在计算语言学协会第49次会议的会议记录中
          3. https://www.eecs.harvard.edu/~michaelm/postscripts/ReadPaper.pdf