用于技术分析的蜘蛛 - 识别内容管理系统

时间:2014-12-12 19:44:19

标签: full-text-search web-crawler search-engine

我正在寻找可以抓取链接的网络蜘蛛(从特定网址开始并跟踪指向其他网域的链接)并识别具有名为" abc"的目录的网站。页面标题包含" 123"。

这可能听起来很阴暗所以让我解释一下,它是识别使用某个CMS的网站的工具,因此我可以为CMS支持服务建立一个潜在客户列表。 另一种方法是蜘蛛,它可以识别html中某些熟悉的CMS的出现。

此类服务由builtwith.com和wappalyzer.com提供,尽管这些商业解决方案价格昂贵且我想首先探索开源解决方案。

1 个答案:

答案 0 :(得分:0)

考虑使用搜索引擎。

许多搜索引擎都允许intitle:123 inurl:abc等查询。

但要注意,他们倾向于阻止已知针对安全问题的请求。就像Santy和myDoom蠕虫一样,它依靠Google来查找易受攻击的phpBB安装。

自己将所有的互联网赶出去需要很多的时间,你知道......

如果您不需要最新数据,并且需要一些额外的资金,您还可以在AWS上处理commonsCrawl。