我目前正在处理一组报告样式的文档,我想从中提取信息。目前,我正试图将文本主体划分为较小的成分,用于个人分类(我们在短语中期望什么样的信息)。由于编写报告的语法不准确,标准选区解析器将找不到句子的公共根。这显然需要依赖解析。然而,我有兴趣是否会有选区解析器,而不是针对句子的完整解析。延伸到概率CKY的行,它试图返回最可能的子节点。我目前正在使用Python nltk框架,但Java解决方案也可以。
答案 0 :(得分:2)
听起来你正在寻找“浅层解析”或“分块”。一个chunker可能只是在你的文本中识别NP,或者只是NP和VP等。我不相信nltk提供了一个随时可用的,但是训练你自己很容易。 nltk书的Chapter 7提供了有关如何创建或训练各种类型的块的详细说明。如果你想要一些分层结构,那么这些块甚至可以嵌套。