我是GATE NLP
的新手。我有一个包含子弹的文档。当我将其加载到GATE
时。子弹被检测为未知类型符号,打印为
。我还尝试将编码设置为UTF-8
。我还尝试以编程方式加载文档,然后将子弹检测为?
。
任何人都可以解释一下吗?
示例:
Promoted to Senior Member Technical in 2.5 years of experience.
这是GATE DEVELOPER UI
中的符号,当我执行时会显示?
符号"以编程方式显示"。
答案 0 :(得分:0)
根据我的经验,doc
和docx
文件通常不会生成
个字符。项目符号丢失(文本格式为子弹列表)或打印为•
(带有原始项目符号的文本)。
另请参阅此相关问题:Parsing either font style or block of paragraph in GATE
Pdf
个文件通常会在GATE文档中生成“
- 项目符号”。它可能与某些 pdf 或 Apache PDFBox 问题有关,请参阅例如this one
这些字符也具有unicode值。在XML中,它们被编码为例如
。在这种情况下,我的建议是跟踪这些字符(它们可能具有不同的unicode值,具体取决于原始的项目符号),并用可打印的内容替换它们(例如•
)。
关于?
字符:我可能是由不支持这些字符的java环境引起的。参见例如:Why Some Unicode Characters appears to be question mark in the console?