我建立了包含一些阿拉伯语单词的列表,然后在def文件中添加与此列表相关的记录,并将这两个文件放在相同的目录中,然后放入我编写的Java代码中:
FeatureMap params = Factory.newFeatureMap();
params.put("encoding", "UTF-8");
params.put("listsURL","file:/D:/ThesisProj/Gazetteers/lists.def");
LanguageAnalyser gazetteer = (LanguageAnalyser)Factory.createResource("arabic.ArabicGazetteer",params);
gazetteer.init();
当列表和文件(我匹配其中的单词)中包含英文单词时,匹配完成,因为结果注释具有匹配词的查找注释, 但是,当我尝试使用阿拉伯语言,并且列表和比较文件中都只有阿拉伯语单词时,结果注释中没有查找注释, 有谁能帮助我让GATE识别阿拉伯字符并将其匹配,我认为utf-8不适合
答案 0 :(得分:0)
可能是字符编码问题。您可以使用与utf-8
...
还要检查文档的编码,它也可能会损坏。
GATE绝对有能力处理阿拉伯语。您可以在GUI中轻松验证是否一切正常。
查看使用 GATE插件LIVE DEMO
创建的两个简单屏幕截图检查地名录列表是否正常:
检查文档是否正常: