NLP领域是否有人听说过 Zone Hashing 一词?据我所知,区域哈希是迭代文档和提取句子的过程。然后对句子的累积进行哈希处理,并继续处理下一个 n 句子...
我在谷歌上没有找到任何关于此的内容,所以我想知道它是否有不同的名称。它应该与测量文本相似性/接近度有关。
也许它指的是局部敏感的哈希?
答案 0 :(得分:1)
据我所知,“区域哈希”在NLP作为一门学科并不是一个完善的概念。它只是一些算法中使用的简单概念(与NLP相关)。我所知道的唯一使用它的是Sphinx
搜索服务器,这里,“区域哈希”只是“对称为区域的对象的哈希”,其中“区域”描述如下:
区域可以正式定义如下。一切之间的一切 打开和匹配的结束标记称为span,以及聚合 对应共享相同标记名称的所有跨度称为区域。 例如,<< H1>和< / H1>在 文档字段属于H1区域。
由index_zones指令启用的区域索引是可选的 HTML stripper的扩展。所以它也需要 启用了stripper(使用html_strip = 1)。的价值 index_zones应该是这些标记名称和逗号分隔的列表 应该作为区域编入索引的通配符(以星号结尾)。
区域可以任意嵌套和重叠。唯一的要求是 每个开头标签都有一个匹配的标签。你也可以随心所欲 两个区域的数量(如在唯一区域名称中,如H1)和跨度 (文档中所有出现的H1标签)。索引后, 然后可以使用区域与ZONE运算符进行匹配,请参阅 第5.3节“扩展查询语法”。
这些结构的散列在传统意义上用于加速搜索和查找。我不知道任何“更深层”的含义。
也许它指的是局部敏感哈希?
位置敏感散列是多维数据的概率方法,我没有看到任何与区域散列有更深层次的连接,然后两者都使用散列函数。