是否可以使用NodeJS抓取任何给定的URL?

时间:2014-08-07 12:51:52

标签: node.js web-scraping

est我将在此序言中说这对我来说是新的,纯粹是一种学习练习,所以请原谅任何天真。

我一直在浏览一些关于抓取的文章,似乎NodeJS,ExpressJS,Request和Cheerio将成为我喜欢JS / jQuery的前端人员的首选方法。

到目前为止,我所阅读的所有文章都集中在没有API的情况下从特定网站抓取数据,而我想要开始实现的是一个工具,它可以获取任何给定的URL并返回一个true / false表示正在使用哪些公共库以及链接了哪些社交网络。

例如,用户输入一个URL并且结果返回"该网站使用jQuery,MooTools,BackboneJS,AngularJS等"和"该网站与Facebook,Twitter等链接#34;。与Tregia有点类似:http://www.tregia.com/process?q=http://smashingmagazine.com

由于CSS选择器,我选择的设置(上面)是否适合或仅限于抓取特定页面?

1 个答案:

答案 0 :(得分:1)

你应该能够抓取所有页面,然后找到他们的标签并阅读他们正在使用的工具(尽管记住他们可能已经重命名了它们[ex angularjs3.1.0.js - > foobar.js]以保持人们从了解他们的堆栈)。您还应该能够在其他感知相关的标记中获取特定文本。

您应该尝试关注每个页面的robots.txt

编辑:你可能无法抓住网站的“会员”/“仅限登录”区域。