我使用OpenNLP创建了一个UIMA堆栈,该堆栈在所有核心上本地运行。它执行各种任务,包括从CSV文件读取,将文本插入数据库,解析文本,POS标记文本,分块文本等。我还可以在spark集群中运行各种任务。
我们希望在堆栈中添加一些机器学习算法,并且DeepLearning4j是一个非常可行的选择。不幸的是,目前尚不清楚如何将DL4J集成到我们现有的内容中,或者它是否只是复制了我现在拥有的堆栈。
我在UIMA,ClearTK和Deeplearning4j网站上找不到的是这三个库如何组合在一起。 DeepLearning4J是否实现了一组调用OpenNLP函数的ClearTK抽象类? ClearTK提供哪些好处?我是否担心DeepLearning4J如何使用ClearTK框架实现任何功能?
谢谢!
答案 0 :(得分:1)
据我所知,你正在运行一个使用一些基于OpenNLP的AnalysisEngines的UIMA管道,到目前为止还没问题。 从您的问题中不清楚的是您在功能方面寻找的是什么,而不是工具。 所以我认为这是第一件要澄清的事情。
除此之外,Apache UIMA是一个架构框架;在那里你可以集成OpenNLP,DL4J,ClearTK或其他任何对你的非结构化信息处理任务有用的东西。
在Apache OpenNLP项目中,我们正在进行一些集成不同DL框架的实验,您可以拥有https://issues.apache.org/jira/browse/OPENNLP-1009(当前原型基于DL4J)。
由于您提到您正在利用Apache Spark集群,因此DL4J可能非常适合,因为它应该能够顺利集成。
答案 1 :(得分:0)
我们只将它用作NLP与dl4j的一组接口的一部分。一个tokenizer工厂和标记器,它在内部使用UIMA进行标记化和句子分割,并使用我们的句子界面。这与使用deeplearning4j本身建立自己的模型非常不同。