我希望使用Senseval-2 Coarse Sense Dataset,但有相同的描述(关于数据集的格式)。
应该有决策数据,即是否应该合并两种感官。中间值是一个置信度量吗?此外,他们使用了Wordnet 1.7的预发行版。我可以使用Wordnet 1.7吗?
该文件中的示例如下所示:
材料%5:00:00:物理:00 3材料%5:00:00:世俗:00
材料%3:00:03 :: 3材料%5:00:00:世俗:00
材料%3:00:04 :: 2材料%3:00:01 ::
材料%3:00:02:
交%5:00:00:成功的(a):00
本%3:00:01:
本%3:00:02:
本%3:01:00:
石%3:01:00:
石%5:00:00:色度:00
air%1:15:00 :: 4 air%1:27:00 ::
air%1:19:00 :: 4 air%1:27:00 ::
air%1:27:01 :: 4 air%1:27:00 ::
空气%1:04:00:
空气%1:10:02:
空气%1:07:00:
空气%1:10:01:
上诉%1:04:00 :: 3上诉%1:10:00 ::
上诉%1:10:02 :: 3上诉%1:10:00 ::
答案 0 :(得分:2)
通过检查,中间数字实际上描述了在相同的合并意义上有多少感官。例如:
matrial%5:00:00:physical:00 3 material%5:00:00:worldly:00
material%3:00:03:: 3 material%5:00:00:worldly:00
基本上说有3种感觉被认为与material%5:00:00:worldly:00
相同,它们是两条线中提供的两种感官,以及感觉本身。
您还可以看到没有合并的感官号码,例如air%1:04:00
,而感觉material%3:00:04:: 2 material$2:00:01::
您可以看到有两种感官。因此,您可以通过将第一个位置的感官映射到第二个位置的感觉来进行合并。