应用错误收集

如何使用Stanford CoreNLP识别URL

时间：2015-08-22 05:04:34

标签： nlp stanford-nlp

我正在使用Stanford CoreNLP从给定文档中提取各种类型的信息。我正在尝试检测URL模式，我可以看到以http：//或https：//开头的链接被正确识别，但以ftp：//，svn：//等开头的链接在＆＃39;处被破坏：＆＃39;和＆＃39; ftp＆＃39;或者＆＃39; svn＆＃39;成为令牌而不是被识别为令牌的完整链接。因此，我无法使用任何正则表达式进行匹配。我知道有一种方法可以使用tokenize.whitespace来标记带有空格的单词。有没有办法压制＆＃39;：＆＃39;如何标记URL以便将完整链接识别为令牌？

1 个答案:

答案 0 :(得分：2)

不幸的是，没有一种简单的方法可以添加额外的URL模式，因为出于速度原因，使用JFlex将tokenizer作为编译的有限自动机完成。你只能从PTBLexer.flex开始，编辑它，用JFlex创建新的java文件，在它上面设置javac等等。对于未来的版本，我们的游戏是添加有用的模式，这些模式不会影响准确性其他地方的标记化。我添加了“ftp”，“svn”和“svn + ssh”。还有其他你想要的吗？（你也可以提出拉动请求。）