创建自定义Stanford Tokenizer

时间:2014-06-17 22:30:00

标签: tokenize stanford-nlp

我参与构建自然语言应用程序,该应用程序应识别可能涉及机器类型的实体,例如x86将是一种类型。此外,如果NER可以识别文件位置,例如/ foobar / data /或某个位置的文件,例如/foobar/data/example.zip

,那将会很棒。

现在很明显,人们可以训练斯坦福大学的分析师到达这些。但在创建训练样本之前,我必须创建标记的令牌文件。说明非常明确here。然而,我在标记化时遇到了问题。人们不能指望Stanford Parser将像/foobar/data/example.zip这样的文件标记为单个标记。我只想将这样的文件位置标记为单个标记,然后显然将其标记为FILE-LOCATION。 (如果你知道我应该使用正确的ENTITY TAG,我会问很多,我正在浏览ACE实体类型,但是如果你能指出我用于机器类型实体和事件的标准标签,它会是真有帮助。)

所以我的问题是:

我想自定义stanford tokenizer,或者扩展它以理解文件位置或自定义标记。如何才能做到这一点? (这在NER步骤之前是否需要?)

我正在查看Stanford Tokenizer here的选项,我不知道如何训练新的标记器。

0 个答案:

没有答案