抓取网站以报告HTML

时间:2015-11-02 21:53:27

标签: html css web-scraping reporting

我想知道我的团队代码中有多少已集成到大型网站中。

我相信通过获取某些CSS选择器出现在所有HTML页面中的出现次数的统计数据,我可以实现这一点(尽管大致如此)。我有一些独特的CSS类选择器,我想在抓取网站进行分析时使用:

  1. 选择器出现的页数。
  2. 在任何页面上,多少次。
  3. 我环顾四周但找不到任何工具 - 有没有人知道,或者可以提出任何可以帮助我快速实现这一目标的想法?

    提前致谢。

2 个答案:

答案 0 :(得分:0)

我建议您使用Google App Scripting。您可能设法抓取网站的网页并使用正则表达式计算CSS选择器的出现次数。修改他的以下代码,搜索每个页面的CSS选择器。代码说明是here

代码

MongoClient.connect

答案 1 :(得分:0)

感谢大家的建议。

最后我决定没有一个工具可以帮助我按照我描述的方式收集统计信息,所以我已经开始在 Node 中构建我需要的应用程序。虽然在我发现Javascript的中级知识之前我没有使用过Node。

对于任何想要这样做的人:

我使用 Simplecrawler 来运行网站,然后使用 Cheerio 查找选择器,我可以使用 FS <创建一个在Json中创建的简单报告/强>