你如何建立一个torrent文件索引器?

时间:2009-04-02 07:09:19

标签: search-engine bittorrent

我对像torrentz.com这样的搜索引擎背后的技术感到好奇。根据我的观察,它不会托管任何torrent文件,而是将您连接到其他服务器。

  • 您搜索关键字,它会显示与您的搜索匹配的潜在标题列表。
  • 然后你选择其中一个,它为你提供托管相应的torrent文件的潜在服务器的另一个列表。

我特别感兴趣的是收集和索引所有内容背后的策略:

他们如何收集然后汇总数据?
是否是提交基础服务,其中每个服务器都提交其内容以进行索引?
它是一种爬行算法吗?如果是这样,你怎么开始爬网像piratebay.org?
他们是否可以访问这些其他服务器的数据库?

我对bittorrent协议的了解和理解并不是很精细,但我在网上找到的文档更多地指向了构建跟踪服务所涉及的过程,这并不是我感兴趣的。和推荐的阅读材料表示赞赏。

1 个答案:

答案 0 :(得分:6)

开始索引他们的RSS订阅源并从中收集数据。下一步将是门户网站(如Mininova,tpb等)页面的索引,但要注意这样做的事实,即你可以被禁止(基于ip),因为这会引发从服务器请求的大量数据(i不要以为他们对此太开心了。)

那说我怀疑他们可以访问其他服务器的数据库,而是它正在抓取+ rss。

您可以使用的另一件事是,当有人查询您在qyour数据库中没有的项目时,您在主bt门户网站上进行查询,将结果缓存到数据库中,然后显示结果。然后,如果另一个用户进行相同的查询(这是非常常见的情况),您可以向他显示缓存数据+来自rss的新数据。