使用斯坦福的PTBTokenizer标记大型英文文件的不一致?

时间:2013-12-07 03:48:00

标签: tokenize stanford-nlp

我有来自Stanford JavaNLP API的Stanford PTBTokenizer(包含在POS tagger v3.2.0中),我用它来尝试标记一个较大的(~12M)文件(英文文本)。从bash调用:

java -cp ../david/Desktop/quest/lib/stanford-parser.jar \
  edu.stanford.nlp.process.PTBTokenizer -options normalizeAmpersandEntity=true \
  -preserveLines foo.txt >tmp.out

我看到标点符号的实例在某些地方没有被正确标记,而在其他地方没有。例如,输出包含" Center,Radius {4}"并且还包含其他地方" Center,Radius -LCB-4 -RCB - "。 (前者是一种不好的标记化;后者是正确的。)

如果我在自己的文件中隔离不能正确标记的行并在新文件上调用解析器,那么输出就可以了。

有没有人碰到这个?有没有办法解决不检查错误解析的输出,分离错误和重新标记的问题?

1 个答案:

答案 0 :(得分:0)

升级到最新版本(3.3.0)修复了逗号附件问题。有些虚假的括号/括号没有被正确标记(主要是因为它们被误认为是表情符号)。

再次感谢Manning教授和他约翰鲍尔的提示和提示彻底的帮助。