如何在DeepLearning4j中逐行NLP处理doc?

时间:2017-05-16 18:48:22

标签: uima deeplearning4j

我对NLP的SentenceIterator / DocumentIterator有疑问。我文件中的每一行代表一个简短的文档,由1个或多个句子组成。我想将每一行传递给UIMA nlp处理器并接收这一行的pos标记句子列表(因此一个文档),让我们说一下PosTaggedSentences列表。 DL4j库中有类似的东西可以达到这个目的吗?

SentenceIterator iter = UimaSentenceIterator.createWithPath(filePath);

此代码将文件中的所有句子分成单独的句子,但它不会保留每行一个文档的结构。

有关如何在DL4j中执行此操作的任何建议吗?

1 个答案:

答案 0 :(得分:0)

为什么不在代码中实例化UimaSentenceIterator? DeepLearning4j docs suggest doing so包含以下示例:

  

对于任何复杂的事情,我们建议使用实际的机器学习级别   管道,由UimaSentenceIterator代表。

SentenceIterator iter = new UimaSentenceIterator(path,AnalysisEngineFactory.createEngine(
    AnalysisEngineFactory.createEngineDescription(
        TokenizerAnnotator.getDescription(), SentenceAnnotator.getDescription())));