应用错误收集

时间：2014-07-14 06:28:52

标签： jquery node.js web-scraping screen-scraping jsdom

很抱歉，如果它太基础了。我想抓取一个网站，其中涉及点击页面上的链接，并获得生成的HTML。我读到了名为JSDOM的nodejs模块，我想这是为了这个目的而构建的。

任何人都可以指导我朝着正确的方向（博客或一些文档），因为我找不到任何有价值的东西。

编辑1： 我一直在使用cheerio，但它没有执行该功能。我找到了这三个链接http://okfnlabs.org/blog/2013/01/15/web-scraping-with-node-css-selectors.html
http://liamkaufman.com/blog/2012/03/08/scraping-web-pages-with-jquery-nodejs-and-jsdom/
http://reustle.io/blog/simple-site-scraping-with-nodejs-and-jsdom
这些链接都没有显示如何在页面上实际使用JSDOM进行JS操作，只处理DOM操作。

答案 0 :(得分：0)

快速的Google搜索会为您提供所需的内容，但这里有一个关于网页抓取的良好链接。你真的不需要使用JSDOM，你可以使用Cheerio（类似jQuery的语法）来选择HREF CSS元素。

干杯。

答案 1 :(得分：0)

如果您正在与DOM进行大量交互（通过Javascript或其他方式），您可能会遇到JSDOM不像浏览器那样表现不足的问题。

你可能会有更好的运气，例如PhantomJS（Node模块为exist），这将提供真正的无头浏览器环境。