如何使用Stanford CoreNLP识别URL

时间:2015-08-22 05:04:34

标签: nlp stanford-nlp

我正在使用Stanford CoreNLP从给定文档中提取各种类型的信息。我正在尝试检测URL模式,我可以看到以http://或https://开头的链接被正确识别,但以ftp://,svn://等开头的链接在'处被破坏: '和' ftp'或者' svn'成为令牌而不是被识别为令牌的完整链接。因此,我无法使用任何正则表达式进行匹配。 我知道有一种方法可以使用tokenize.whitespace来标记带有空格的单词。 有没有办法压制':'如何标记URL以便将完整链接识别为令牌?

1 个答案:

答案 0 :(得分:2)

不幸的是,没有一种简单的方法可以添加额外的URL模式,因为出于速度原因,使用JFlex将tokenizer作为编译的有限自动机完成。你只能从PTBLexer.flex开始,编辑它,用JFlex创建新的java文件,在它上面设置javac等等。对于未来的版本,我们的游戏是添加有用的模式,这些模式不会影响准确性其他地方的标记化。我添加了“ftp”,“svn”和“svn + ssh”。还有其他你想要的吗? (你也可以提出拉动请求。)

相关问题