应用错误收集

时间：2011-05-12 16:48:04

标签： stanford-nlp pos-tagger

我将使用Stanford POS标签来标记句子。我想将文档拆分为句子，然后将句子拆分为标记。因为我第一次使用java，所以我只想从命令行运行tagger。

当我正在运行标记器时，它会给出输出，但它会发出警告“无法识别”。这个警告意味着什么？标记符不是隐式完成标记化的吗？

我试图运行命令将文本拆分为您指定的句子，但它不起作用。标记器给出了无法打开路径的错误。

我还想知道如何输入文本文件的数量并在相应的文件中输出它们，以便所有输出都不会混乱。

答案 0 :(得分：4)

是的，Stanford POS标记器包含一个高质量的确定性标记器，除非您说文本已经被标记化，否则将使用该标记器。对于正式的英文文本，它优于大多数其他的标记符，但它不完全适用于短信，推文等。

不可识别的警告意味着输入中存在无法处理的字节/字符序列。

通常这实际上意味着：标记器的默认字符编码是utf-8（Unicode），但是您的文档采用其他编码，例如8位编码，如iso-8859-1或Windows cp1252。您可以转换文档或使用-encoding标志指定输入文档编码。

但它也可能意味着输入中有一个罕见的字符，它不知道。通常在这些情况下，如果它只是一个偶然的角色，你可以忽略这些消息。您可以选择删除字符还是将其转换为1个字符标记。

目前没有使用一个命令在一堆文件上运行它的工具。您需要在每个文件上单独运行它，或者为此编写自己的代码。