应用错误收集

是否可以使用NodeJS抓取任何给定的URL？

时间：2014-08-07 12:51:52

标签： node.js web-scraping

est我将在此序言中说这对我来说是新的，纯粹是一种学习练习，所以请原谅任何天真。

我一直在浏览一些关于抓取的文章，似乎NodeJS，ExpressJS，Request和Cheerio将成为我喜欢JS / jQuery的前端人员的首选方法。

到目前为止，我所阅读的所有文章都集中在没有API的情况下从特定网站抓取数据，而我想要开始实现的是一个工具，它可以获取任何给定的URL并返回一个true / false表示正在使用哪些公共库以及链接了哪些社交网络。

例如，用户输入一个URL并且结果返回＆＃34;该网站使用jQuery，MooTools，BackboneJS，AngularJS等＆＃34;和＆＃34;该网站与Facebook，Twitter等链接＃34;。与Tregia有点类似：http://www.tregia.com/process?q=http://smashingmagazine.com。

由于CSS选择器，我选择的设置（上面）是否适合或仅限于抓取特定页面？

1 个答案:

答案 0 :(得分：1)

你应该能够抓取所有页面，然后找到他们的标签并阅读他们正在使用的工具（尽管记住他们可能已经重命名了它们[ex angularjs3.1.0.js - ＆gt; foobar.js]以保持人们从了解他们的堆栈）。您还应该能够在其他感知相关的标记中获取特定文本。

您应该尝试关注每个页面的robots.txt。

编辑：你可能无法抓住网站的“会员”/“仅限登录”区域。