是否可以在多线程方式上在大量语料库上运行CogComp-NLP管道?不幸的是,我在自述文件中没有看到任何提及线程安全的内容。关于这个问题的想法值得赞赏。
答案 0 :(得分:1)
仅针对命名实体识别功能,它是线程安全的,我在并行工作流引擎中使用它来处理数百万(大约90个)文档而没有问题。我不能权威地谈论该系统中的其他功能,而且有许多功能。我会进一步将NER的多线程功能描述为“重入”,这意味着您可以跨多个线程重用单个实例。使用这些类型的系统时,特征向量往往很大,因此可以节省一些内存占用,并在多个线程之间共享NER模型的单个实例。