为大量文档分配唯一ID

时间:2011-10-13 21:23:23

标签: map unique-id

基本上,我们希望能够为大量文档中包含的所有N克唯一地分配ID。因此,如果我要处理1000万个文档,我会从每个文档中读取文本并获得N克(主要是三元组),并且应该能够为这些N-gram分配唯一的ID。不知何故,我需要存储这些唯一的ID,以便我可以快速获取它们。

1 个答案:

答案 0 :(得分:1)

根据上面的评论,我建议您只使用N-gram作为自己的标识符。这样就不需要保持从ID到N-gram的单独映射。

例如,假设您有一个包含文本“hello”的文档,其中包含三元组“hel”,“ell”和“llo”(假设您不包含单词边界)。而不是首先设置ID映射,如1 =“hel”,2 =“ell”,3 =“llo”,并且文档签名是集合{1,2,3},您可以直接使用N-gram作为文件签名{“hel”,“ell”,“llo”}。这样,您甚至可以将扫描和处理阶段组合到文档上的一次传递中。