应用错误收集

是否存在不针对完整解析的选区解析器？

时间：2017-05-09 17:25:43

标签： java python parsing nlp nltk

我目前正在处理一组报告样式的文档，我想从中提取信息。目前，我正试图将文本主体划分为较小的成分，用于个人分类（我们在短语中期望什么样的信息）。由于编写报告的语法不准确，标准选区解析器将找不到句子的公共根。这显然需要依赖解析。然而，我有兴趣是否会有选区解析器，而不是针对句子的完整解析。延伸到概率CKY的行，它试图返回最可能的子节点。我目前正在使用Python nltk框架，但Java解决方案也可以。

1 个答案:

答案 0 :(得分：2)

听起来你正在寻找“浅层解析”或“分块”。一个chunker可能只是在你的文本中识别NP，或者只是NP和VP等。我不相信nltk提供了一个随时可用的，但是训练你自己很容易。 nltk书的Chapter 7提供了有关如何创建或训练各种类型的块的详细说明。如果你想要一些分层结构，那么这些块甚至可以嵌套。