有没有人知道在文本处理环境中什么是chunker以及它的用法是什么?
答案 0 :(得分:12)
根据these slides,分块是解析的替代方法,它提供了句子的部分句法结构,具有有限的树深度,而不是完整的解析。
它比完全解析更受限制,但在提取或忽略信息方面是足够的,因此使用了很多次,因为它比解析更快,更健壮。
幻灯片中提供了更多信息。
更多链接:
答案 1 :(得分:7)
我个人不同意其他答案,但Jurafsky and Martin给出了略微不同的定义。对于他们来说,分块特别是浅层分析的类型,其中没有递归短语。
他们给出的一个例子是“来自丹佛的航班”。一个由chunker生成 not 的解析是“[NP the flight [来自[NP Denver]的PP]]”因为它暗示了具有NP递归的语法。
答案 2 :(得分:4)
这是一种非常简单的解析类型,称为shallow parsing。 OpenNLP项目有一个可用的chunker模块,您可以看到它的documentation作为一个分块的实例