应用错误收集

NLP中信息提取的模式识别或命名实体识别

时间：2017-05-15 19:08:20

标签： nlp feature-extraction opennlp pattern-recognition information-extraction

有一些事件描述文本。我想提取活动的入场费。入学费有时是有条件的。

我想要实现的是提取入场费和条件（如果有的话）。可以检索整个短语或句子，告诉入场费+条件。

注意I：文本是德语。注二：句子通常不完整，因为它们主要是活动传单或广告。

NLP中此问题的类别是什么？它是命名实体识别，可以通过使用Apache openNLP训练自己的模型来解决吗？或者我认为可能更容易通过用例中的常用关键字检测模式（入口，$，但是，直到[数字]上午/下午......）。

请对我说清楚。

输入示例： - “如果你在晚上10点之前进入俱乐部，入口是免费的。之后是6美元。” - “今晚11点加入我们的派对，直到凌晨5点。入场费为8美元。但对于女生和学生来说，这是半价。”

2 个答案:

答案 0 :(得分：1)

这大致是结构学习问题。您可能必须将命名实体识别/标记与Coreference Resolution结合起来。阅读一些关于这些以及相关github代码的论文并从中获取。以下是https://www.reddit.com/r/MachineLearning/comments/3dz3fl/dl_architectures_for_entity_recognition_and_other/

目前对这些工具的最新工具的良好讨论

希望有所帮助。

答案 1 :(得分：-3)

您可以尝试使用Stanford的CoreNLP作为命名实体提取部分。它应该能够帮助您挑选金钱价值，并且还有一个链接到德语语言训练模型（https://nlp.stanford.edu/software/CRF-NER.shtml）。

鉴于提取包含信息的整个句子很好，我建议采用二元句分类方法。通过使用ngrams和一些命名实体信息作为功能，你可能会走得很远。这意味着您需要构建一个管道，该管道会自动将您的文档分割成类似句子的块。您可以尝试使用句子分段工具（也由Stanford CoreNLP提供）作为第一个https://stanfordnlp.github.io/CoreNLP/。由于这将构成所有进一步工作的基础，因此您需要确保结果至少是合适的。也许文档本身的结构为您提供了足够的信息来分割它，甚至不使用句子分割工具。

在您拥有此管道之后，您需要将从大量文档中提取的句子注释为相关或不相关，以使其成为二进制分类任务。然后基于该数据集训练模型。最后，当您将其应用于看不见的数据时，首先使用句子分割方法，然后对每个句子进行分类。