假设我有一百万个标签和一个需要为这些以及可能的新标签解析的文本。这里的标签数量只是一个例子来说明我的思考问题 - 太多以线性方式循环,太多不能留在内存等。
不知怎的,我想不出一个占地面积小(并且保持快速)的解决方案。我知道人们不得不期待权衡取舍,但我认为我忽视了一些概念。
这对于智能标记(“Michael Jackson”=“艺术家”等)尤其有用,因为应用的标记可能不是文本本身的一部分。
除了进行单词黑名单,热门标签的缓存和大量的SQL查询之外,最有效的方法是什么呢?
(有趣的是,我自己要标记这个问题:-))
由于评论空间有限,请在此处添加一些想法:
问题:
答案 0 :(得分:1)
对传入文本中的每个单词进行哈希处理,并使用它来匹配要匹配的标记的哈希值。您可以使用数据库来存储和查找哈希值,这样您就不必在内存中执行此操作。