我想对德语文本使用基于斯坦福模式的实体提取和诊断(SPIED)。不幸的是,默认设置是针对英文文本(例如POS和NER模型)进行的。 另外,在提取的实体示例中,字符编码存在问题,如下所示:
TÃ ¼ rkis
knà ¶ pfbarem
Reißverschluss-Tasche
输入文本采用UTF-8编码,而输出则采用ANSI编码。
对于POS,可以更改模型的路径。这样,我可以明确地指向德国模型。对于NER,没有这样的选择。
如何正确设置SPIED以使其与德语(或其他语言)一起使用?看来,我必须调整源代码并手动添加其他语言?有人可以指出我正确的方向吗?