应用错误收集

我参与构建自然语言应用程序，该应用程序应识别可能涉及机器类型的实体，例如x86将是一种类型。此外，如果NER可以识别文件位置，例如/ foobar / data /或某个位置的文件，例如/foobar/data/example.zip

，那将会很棒。

现在很明显，人们可以训练斯坦福大学的分析师到达这些。但在创建训练样本之前，我必须创建标记的令牌文件。说明非常明确here。然而，我在标记化时遇到了问题。人们不能指望Stanford Parser将像/foobar/data/example.zip这样的文件标记为单个标记。我只想将这样的文件位置标记为单个标记，然后显然将其标记为FILE-LOCATION。（如果你知道我应该使用正确的ENTITY TAG，我会问很多，我正在浏览ACE实体类型，但是如果你能指出我用于机器类型实体和事件的标准标签，它会是真有帮助。）

所以我的问题是：

我想自定义stanford tokenizer，或者扩展它以理解文件位置或自定义标记。如何才能做到这一点？（这在NER步骤之前是否需要？）

我正在查看Stanford Tokenizer here的选项，我不知道如何训练新的标记器。

创建自定义Stanford Tokenizer

0 个答案: