在我们的语料库中,我们经常发现并需要将字母数字作为单个标记解析(例如文件哈希,电子邮件地址等)。我们通过重新编写JFlex创建了自己的ruta-core版本定义。有没有办法在Workbench中使用这个新版本的ruta-core?
答案 0 :(得分:0)
如果您使用简单的Ruta项目,则需要将ruta.engine插件替换为包含ruta-core版本的不同jar。干净的方法是使用您的版本构建一个完整的更新站点。
您也可以在ruta启动配置的类路径中设置ruta-core jar。
如果您使用基于maven的项目,则可以将依赖项设置为您的ruta-core版本,然后应在启动委托中使用该版本。
对于您的用例,我根本不会使用您自己的ruta-core版本。你可以简单地编写自己版本的TokenLexer,就像你可能做的那样。然后,您可以在RutaEngine中配置使用的TokenLexer,因为有一个用于设置它的配置参数。因此,已经有一些功能可以自定义JFlex定义,而无需构建自己的ruta-core。
免责声明:我是UIMA Ruta的开发者