为什么GATE与我的阿拉伯地名词典列表中的单词不匹配?

时间:2019-07-31 10:10:25

标签: java gate

我建立了包含一些阿拉伯语单词的列表,然后在def文件中添加与此列表相关的记录,并将这两个文件放在相同的目录中,然后放入我编写的Java代码中:

FeatureMap params = Factory.newFeatureMap();
params.put("encoding", "UTF-8");       
params.put("listsURL","file:/D:/ThesisProj/Gazetteers/lists.def");
LanguageAnalyser gazetteer = (LanguageAnalyser)Factory.createResource("arabic.ArabicGazetteer",params);
gazetteer.init();

当列表和文件(我匹配其中的单词)中包含英文单词时,匹配完成,因为结果注释具有匹配词的查找注释, 但是,当我尝试使用阿拉伯语言,并且列表和比较文件中都只有阿拉伯语单词时,结果注释中没有查找注释, 有谁能帮助我让GATE识别阿拉伯字符并将其匹配,我认为utf-8不适合

1 个答案:

答案 0 :(得分:0)

可能是字符编码问题。您可以使用与utf-8 ...

不同的编码来创建包含一些阿拉伯语单词的列表

还要检查文档的编码,它也可能会损坏。

GATE绝对有能力处理阿拉伯语。您可以在GUI中轻松验证是否一切正常。

查看使用 GATE插件LIVE DEMO

创建的两个简单屏幕截图

检查地名录列表是否正常:

Language: Arabic

检查文档是否正常:

arabic gazetteer