如何在斯坦福POS标记器中完成标记化?

时间:2011-05-12 16:48:04

标签: stanford-nlp pos-tagger

我将使用Stanford POS标签来标记句子。我想将文档拆分为句子,然后将句子拆分为标记。因为我第一次使用java,所以我只想从命令行运行tagger。

当我正在运行标记器时,它会给出输出,但它会发出警告“无法识别”。 这个警告意味着什么?标记符不是隐式完成标记化的吗?

我试图运行命令将文本拆分为您指定的句子,但它不起作用。标记器给出了无法打开路径的错误。

我还想知道如何输入文本文件的数量并在相应的文件中输出它们,以便所有输出都不会混乱。

1 个答案:

答案 0 :(得分:4)

是的,Stanford POS标记器包含一个高质量的确定性标记器,除非您说文本已经被标记化,否则将使用该标记器。对于正式的英文文本,它优于大多数其他的标记符,但它不完全适用于短信,推文等。

不可识别的警告意味着输入中存在无法处理的字节/字符序列。

通常这实际上意味着:标记器的默认字符编码是utf-8(Unicode),但是您的文档采用其他编码,例如8位编码,如iso-8859-1或Windows cp1252。您可以转换文档或使用-encoding标志指定输入文档编码。

但它也可能意味着输入中有一个罕见的字符,它不知道。通常在这些情况下,如果它只是一个偶然的角色,你可以忽略这些消息。您可以选择删除字符还是将其转换为1个字符标记。

目前没有使用一个命令在一堆文件上运行它的工具。您需要在每个文件上单独运行它,或者为此编写自己的代码。