我正在努力构建网址的索引。目标是构建和存储将具有密钥作为域URL的数据结构(例如,www.nytimes.com),并且该值将是与该URL相关联的一组特征。我正在寻找您对这组功能的建议。例如,我想将www.nytimes.com存储如下:
[www.nytimes.com:[lang:en,alexa_rank:96,content_type:news,spam_probability:0.0001等。]
为什么我要建造这个?最终的目标是用这个索引做一些有趣的事情,例如我可以在这个索引上进行聚类并找到有趣的组等。我和我一起有很多文本,这些文本是在一段时间内通过整批URL生成的很多时间:)所以数据不是问题。
非常欢迎任何建议。
答案 0 :(得分:0)
首先使用您已建议的内容使其正常工作。然后开始添加其他人建议的功能。
除非是创意 执行。
- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html
答案 1 :(得分:0)
我的第一个答案,所以请光临我......
我可能会从这里开始: Google white papers on IR
然后还可以在Google上搜索IR上的白皮书吗?
还要为索引添加一些内容:
其他一些研究地点 - http://www.majesticseo.com/,http://www.opensearch.org/Home和http://www.seomoz.org他们都有自己的索引
我确信还有更多,但希望IR的东西会让齿轮旋转:)