构建URL索引,包含哪些功能?

时间:2010-02-28 01:32:56

标签: data-analysis text-mining

我正在努力构建网址的索引。目标是构建和存储将具有密钥作为域URL的数据结构(例如,www.nytimes.com),并且该值将是与该URL相关联的一组特征。我正在寻找您对这组功能的建议。例如,我想将www.nytimes.com存储如下:

[www.nytimes.com:[lang:en,alexa_rank:96,content_type:news,spam_probability:0.0001等。]

为什么我要建造这个?最终的目标是用这个索引做一些有趣的事情,例如我可以在这个索引上进行聚类并找到有趣的组等。我和我一起有很多文本,这些文本是在一段时间内通过整批URL生成的很多时间:)所以数据不是问题。

非常欢迎任何建议。

2 个答案:

答案 0 :(得分:0)

首先使用您已建议的内容使其正常工作。然后开始添加其他人建议的功能。

  

除非是创意   执行。

- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

答案 1 :(得分:0)

我的第一个答案,所以请光临我......

我可能会从这里开始: Google white papers on IR

然后还可以在Google上搜索IR上的白皮书吗?

还要为索引添加一些内容:

  1. 与域名相关联的子域名
  2. 与域关联的IP地址
  3. 平均网页速度
  4. 指向雅虎域名的链接 - 例如link:nytimes.com或search on yahoo
  5. 域名网站数量:网站上的nytimes.com
  6. competition.com上的流量数据或谷歌趋势
  7. whois信息,例如域名年龄,注册时间等。
  8. 其他一些研究地点 - http://www.majesticseo.com/http://www.opensearch.org/Homehttp://www.seomoz.org他们都有自己的索引

    我确信还有更多,但希望IR的东西会让齿轮旋转:)