我厌倦了通过不同的地名录(也使用了一些Cerole插件)找到列表条目,例如“数据质量”#39;但是,在测试集上使用地名词典时,例如: _ 数据质量。 数据质量。 数据的准确性和质量。 高质量的数据。 _
仅找到前两个条目。显然,我想在上面提到的测试集中找到所有条目。问题是我的问题是否可以通过地名录解决,或者是否需要语法规则。根据文献建议的术语“虚拟化”,我无法找到答案。
提前致谢,
答案 0 :(得分:0)
地名录(通常)只是匹配列表中的单词。您应该将所有这些表单添加到地名词典列表中,或者与语法规则结合使用,以处理数据质量","数据质量"等。
或许你遇到的真正问题是如何构建正确的词典 - 它很难,而且它已经过了GATE,至少根据我的经验:)
对于字典,您应该使用同义词检查字典,特定于虚拟化的术语是专门的网站,类似dbpedia / LOD的存储库以及术语等。
另外看一下棕色星团,主题建模,word2vec也许你可以找到或用这些工具建立正确的同义词短语。