我正在寻找一个将minhash算法应用于字符串或较大文本的node.js / Javascript模块,并为该文本返回“标识”或“特征”字节字符串或十六进制字符串。如果我将算法应用于另一个相似的文本字符串,则哈希字符串也应相似。这样的模块已经存在吗?
到目前为止,我正在研究的模块只能直接比较文本,并直接计算与比较后的文本数量相似的jaccard相似度,但是我想为每个文档存储某种哈希字符串,因此如果文本相似,我以后可以比较字符串的相似性。
从本质上讲,我正在寻找的是此代码(Java)中的Java代码: https://github.com/codelibs/elasticsearch-minhash
例如,对于像这样的字符串:
"The quick brown fox jumps over the lazy dog"
和"The quick brown fox jumps over the lazy d"
会为第一句话创建一个哈希,例如:
"KV5rsUfZpcZdVojpG8mHLA=="
,第二个字符串类似:
KV5rsSfZpcGdVojpG8mGLA==
两个哈希字符串都没有太大的不同...这就是minhash算法的重点,但是,我不知道如何创建类似的哈希字符串..到目前为止,我发现的所有库只能直接比较2个文档并创建相似系数,但它们不会创建文档特有的哈希字符串... 与所有算法的相似之处在于,它们为单词标记(或带状疱疹)数组创建散列的crc32(或相似的)散列值。但是我仍然不知道他们如何将这些哈希值相互比较...
答案 0 :(得分:1)
需要道格拉斯·杜海姆(Douglas Duhaime)的minhash的实现,但是其他任何计算哈希值数组的实现都可以以相同的方式使用。
const str1 = "The quick brown fox jumps over the lazy dog";
const str2 = "The quick brown fox jumps over the lazy d";
console.log(str1);
console.log(str2);
var s1 = str1.split(' ');
var s2 = str2.split(' ');
// create a hash for each set of words to compare
// default numPerm is 128 but that gives very long hash
// below 8, almost similar string will give exactly the same hash
var m1 = new Minhash({numPerm: 8});
var m2 = new Minhash({numPerm: 8});
// update each hash
s1.map(function(w) { m1.update(w) });
s2.map(function(w) { m2.update(w) });
// estimate the jaccard similarity between two minhashes
console.log('jaccard similarity:', m1.jaccard(m2));
// Now to convert hashvalues to a string we use a kind of base64
// encode but since hasvalues is an array of 32bits integer we
// have to explode it into a array of 8bits integers first
// for a given int32 returns 4 bytes
function int32ToBytes(num) {
// the hexadecimal representation of the largest 32bits unsigned integer is 0xFFFFFFFF
// the hexadecimal representation of the largest unsigned integer (8bits === a byte) is 0xFF
// so it is possible to think a 32bits uint (unsigned integer) as the concatenation of 4 8bits uint.
// the bitwise & operator is the bitwise AND
// its table of truth is 0 & 0 = 0, 0 & 1 = 0, 1 & 0 = 0 and 1 & 1 = 1
// for instance 8 & 1 <=> 0b111 & 0b001 <=> 0b001 <=> 1
// the same is possible with hex representation:
// 65535 & 255 <=> 0xFFFF & 0x00FF <=> 0x0FF <=> 255
// 65535 & 65280 <=> 0xFFFF & 0xFF00 <=> 0xFF00 <=> 65280
// 255 + 65535 = 65535
// now about the bitwise >> shift operator
// a >> n shift the number a by n bits to the right
// in hex FF is 8bits so `0xFF00 >> 8 = 0xFF`
// this operation is reversible `0xFF << 8 = 0xFF00`
// 0xFFFF needs 16 bits to be represented, as 0xFF00
// but 0xFF only needs 8 bits
// so its possible to split a 16 bits integer into two 8 bits integer this way:
// int16 = (int16 & 0xFF00) >> 8 + (int16 & 0x00FF) >> 0
// no information was lost because we're able to do the reverse operation
// the same principle is used below to encode a 32 bits integer into 4 bytes (8bits integers)
// max uint32 = 0xFFFFFFFF =
// 0xFF << 24 + 0xFF << 16 + 0xFF << 8 + 0xFF << 0
const arr = [
(num & 0xff000000) >> 24,
(num & 0x00ff0000) >> 16,
(num & 0x0000ff00) >> 8,
(num & 0x000000ff)
];
return arr;
}
// tolerant base64 encode of 4 bytes
function Uint8ToString(u8a){
var CHUNK_SZ = 0x8000;
var c = [];
for (var i=0; i < u8a.length; i+=CHUNK_SZ) {
c.push(String.fromCharCode.apply(null, u8a.subarray(i, i+CHUNK_SZ)));
}
return c.join("");
}
// tolerant base64 encode of int32 array
function base64EncodeInt32Array(intArray) {
let str = '';
intArray.forEach((i) => {
var u8 = new Uint8Array(int32ToBytes(i));
var b64encoded = btoa(Uint8ToString(u8));
str += b64encoded;
});
return str;
}
// replace non significant '==' to shorten hash
console.log(base64EncodeInt32Array(m1.hashvalues).replace(/==/g, ''));
console.log(base64EncodeInt32Array(m2.hashvalues).replace(/==/g, ''));
<script src='https://rawgit.com/duhaime/minhash/master/minhash.min.js'></script>
答案 1 :(得分:1)
如果您一次只打算比较两个文档(doc A与doc B有多相似?),则可以将每个文档的细微差别存储为串联字符串就可以了。您可以通过将每个文档的字符串拆分回其组成的小抄并计算共享的小抄(相同)来比较这两个文档。
但是,如果您想问“其他哪些文档与文档A相似”,则这是一个较差的解决方案,因为您必须将doc A与以前看到的所有其他文档分别进行比较。更糟糕的是,如果要在语料库中查找所有文档之间的相似性,则必须将每个文档与每个其他文档进行比较。在1000个文档的组中,将需要499,500个比较。拥有100万个文档,这将近5,000亿次比较。这是一个O(n 2 )问题。
相反,执行此操作的适当方法是保留一个哈希字典,将细化字符映射到文档ID。每次遇到新文档时,都会生成其哈希,然后在哈希字典中查找共享一个或多个哈希的所有其他文档。与传入文档共享的文档散列越多,其估计的jaccard相似度就越高。 最后,您将新文档的所有小错误都添加到哈希字典中,以便将来进行搜索。
您可能只对至少共享一半哈希的相似性感兴趣(估计50%的jaccard相似性),但是要找到这些相似性仍然需要大量的计算,因为可能有数百万个与传入文档共享至少一个minhash的文档,并且您需要计算每个文档的共享哈希数。 Locality sensitive hashing可以大大减少匹配次数(以及所需的存储空间)。