文档中的项目符号在GATE NLP中作为问号

时间:2016-08-08 10:35:42

标签: java encoding nlp stanford-nlp gate

我是GATE NLP的新手。我有一个包含子弹的文档。当我将其加载到GATE时。子弹被检测为未知类型符号,打印为。我还尝试将编码设置为UTF-8。我还尝试以编程方式加载文档,然后将子弹检测为?

任何人都可以解释一下吗?

示例:

 Promoted to Senior Member Technical in 2.5 years of experience.

这是GATE DEVELOPER UI中的符号,当我执行时会显示?符号"以编程方式显示"。

1 个答案:

答案 0 :(得分:0)

根据我的经验,docdocx文件通常不会生成个字符。项目符号丢失(文本格式为子弹列表)或打印为(带有原始项目符号的文本)。

另请参阅此相关问题:Parsing either font style or block of paragraph in GATE

Pdf个文件通常会在GATE文档中生成“ - 项目符号”。它可能与某些 pdf Apache PDFBox 问题有关,请参阅例如this one

这些字符也具有unicode值。在XML中,它们被编码为例如。在这种情况下,我的建议是跟踪这些字符(它们可能具有不同的unicode值,具体取决于原始的项目符号),并用可打印的内容替换它们(例如)。

关于?字符:我可能是由不支持这些字符的java环境引起的。参见例如:Why Some Unicode Characters appears to be question mark in the console?