什么是自然语言处理中的区域哈希?

时间:2013-08-27 19:33:52

标签: nlp information-retrieval

NLP领域是否有人听说过 Zone Hashing 一词?据我所知,区域哈希是迭代文档和提取句子的过程。然后对句子的累积进行哈希处理,并继续处理下一个 n 句子...

我在谷歌上没有找到任何关于此的内容,所以我想知道它是否有不同的名称。它应该与测量文本相似性/接近度有关。

也许它指的是局部敏感的哈希?

1 个答案:

答案 0 :(得分:1)

据我所知,“区域哈希”在NLP作为一门学科并不是一个完善的概念。它只是一些算法中使用的简单概念(与NLP相关)。我所知道的唯一使用它的是Sphinx搜索服务器,这里,“区域哈希”只是“对称为区域的对象的哈希”,其中“区域”描述如下:

  

区域可以正式定义如下。一切之间的一切   打开和匹配的结束标记称为span,以及聚合   对应共享相同标记名称的所有跨度称为区域。   例如,<< H1>和< / H1>在   文档字段属于H1区域。

     

由index_zones指令启用的区域索引是可选的   HTML stripper的扩展。所以它也需要   启用了stripper(使用html_strip = 1)。的价值   index_zones应该是这些标记名称和逗号分隔的列表   应该作为区域编入索引的通配符(以星号结尾)。

     

区域可以任意嵌套和重叠。唯一的要求是   每个开头标签都有一个匹配的标签。你也可以随心所欲   两个区域的数量(如在唯一区域名称中,如H1)和跨度   (文档中所有出现的H1标签)。索引后,   然后可以使用区域与ZONE运算符进行匹配,请参阅   第5.3节“扩展查询语法”。

这些结构的散列在传统意义上用于加速搜索和查找。我不知道任何“更深层”的含义。

  

也许它指的是局部敏感哈希?

位置敏感散列是多维数据的概率方法,我没有看到任何与区域散列有更深层次的连接,然后两者都使用散列函数。