我有一个搜索引擎的想法,它会像其他搜索引擎现在那样对网页项目进行索引,但只会存储文件的标题,网址和内容的哈希值。
通过这种方式,如果您已经拥有它们并且不知道它们来自哪里或者想知道所有出现的地方,那么很容易在网上找到物品。
对图像,可执行文件和档案等非文本项目更有用。
我想知道是否已经有类似的东西?
答案 0 :(得分:4)
结帐the wikipedia page on locality sensitive hashing。还有a good page hosted by a research on MIT。
一般来说,有几种口味:字符串的散列(例如simhash),集合或0/1特征(例如min-wise hashes),以及真实的矢量。
到目前为止,数值哈希的主要技巧基本上是dimension reduction。对于字符串,我们的想法是提出一种在次要编辑时表现强大的表示。
我也在这方面做了一些研究,虽然我认为stackoverflow可能不是新生工作的正确位置。
答案 1 :(得分:1)
嗯,对于图片来说,有{http://tineye.com/][1],这样就可以了,并找到相似的图像。
[1]:http://tineye.com/锡眼
答案 2 :(得分:1)
问题似乎集中在精确匹配哈希上,我们比最近邻方法更了解,并且确实值得,特别是如果人们可以通过这种方式共享标签和其他元数据。
正如@rjmunro指出的那样,基于哈希的搜索在P2P世界中是一个流行的想法,Bitzi做了相当多的事情,虽然他们已经关闭,他们的Bitpedia(数字媒体百科全书)不再托管在那里,尽管其中一些至少仍可在Archive.org上找到。
Bitzi还制作了像Bitcollider (SourceForge.net)这样的软件, 和Magnet URI scheme,它允许通过散列指定文件,因此是基于内容的标识符。各种应用程序支持通过Magnet URI在各种数据库中进行搜索,如Wikipedia页面所述。
同样的想法在密码破解场景中很流行 - 参见例如findmyhash - Python script to crack hashes using online services等。
更进一步,我认为如果有数据库和在线存储库通过哈希识别内容并提供标记和其他元数据关于各种内容的话会很棒观点。然后我可以将我的音乐收藏保持在原始状态(没有浪费的备份空间和时间),但仍然自己标记它们并通过外部标签数据库添加其他元数据。如果我的应用程序知道如何抓取标签,那么它似乎比我们修改和复制大文件的当前系统要好得多,只是为了移动标签。我的桌面到我的手机。
请参阅Metadata Independent Hashing for Media Identification & P2P Transfer Optimisation(pdf)中的相关提示。
答案 3 :(得分:0)
这不是一个坏主意。有时我发现自己偶然发现了一些文件试图找出它来自哪里:)但是你如何跟踪项目的来源?内容可以通过各种方式获得 - 网络浏览器,下载管理器,只需从网络共享中复制即可。
答案 4 :(得分:0)
如果我理解您的提案,http://bitzi.com/已经做了一段时间了。