应用错误收集

据我所知，“区域哈希”在NLP作为一门学科并不是一个完善的概念。它只是一些算法中使用的简单概念（与NLP相关）。我所知道的唯一使用它的是Sphinx搜索服务器，这里，“区域哈希”只是“对称为区域的对象的哈希”，其中“区域”描述如下：

区域可以正式定义如下。一切之间的一切   打开和匹配的结束标记称为span，以及聚合   对应共享相同标记名称的所有跨度称为区域。   例如，＆lt;＆lt; H1>和＆lt; / H1＆gt;在   文档字段属于H1区域。

由index_zones指令启用的区域索引是可选的   HTML stripper的扩展。所以它也需要   启用了stripper（使用html_strip = 1）。的价值   index_zones应该是这些标记名称和逗号分隔的列表   应该作为区域编入索引的通配符（以星号结尾）。

区域可以任意嵌套和重叠。唯一的要求是   每个开头标签都有一个匹配的标签。你也可以随心所欲   两个区域的数量（如在唯一区域名称中，如H1）和跨度   （文档中所有出现的H1标签）。索引后，   然后可以使用区域与ZONE运算符进行匹配，请参阅   第5.3节“扩展查询语法”。

这些结构的散列在传统意义上用于加速搜索和查找。我不知道任何“更深层”的含义。

也许它指的是局部敏感哈希？

位置敏感散列是多维数据的概率方法，我没有看到任何与区域散列有更深层次的连接，然后两者都使用散列函数。

什么是自然语言处理中的区域哈希？

1 个答案: