什么是自然语言处理中的一个组块?

时间:2011-01-21 10:54:22

标签: nlp chunking

有没有人知道在文本处理环境中什么是chunker以及它的用法是什么?

3 个答案:

答案 0 :(得分:12)

根据these slides,分块是解析的替代方法,它提供了句子的部分句法结构,具有有限的树深度,而不是完整的解析。

它比完全解析更受限制,但在提取或忽略信息方面是足够的,因此使用了很多次,因为它比解析更快,更健壮。

幻灯片中提供了更多信息。

更多链接:

答案 1 :(得分:7)

我个人不同意其他答案,但Jurafsky and Martin给出了略微不同的定义。对于他们来说,分块特别是浅层分析的类型,其中没有递归短语。

他们给出的一个例子是“来自丹佛的航班”。一个由chunker生成 not 的解析是“[NP the flight [来自[NP Denver]的PP]]”因为它暗示了具有NP递归的语法。

答案 2 :(得分:4)

这是一种非常简单的解析类型,称为shallow parsing。 OpenNLP项目有一个可用的chunker模块,您可以看到它的documentation作为一个分块的实例