Jsdom网络抓取

时间:2014-07-14 06:28:52

标签: jquery node.js web-scraping screen-scraping jsdom

很抱歉,如果它太基础了。我想抓取一个网站,其中涉及点击页面上的链接,并获得生成的HTML。我读到了名为JSDOM的nodejs模块,我想这是为了这个目的而构建的。

任何人都可以指导我朝着正确的方向(博客或一些文档),因为我找不到任何有价值的东西。

编辑1: 我一直在使用cheerio,但它没有执行该功能。我找到了这三个链接http://okfnlabs.org/blog/2013/01/15/web-scraping-with-node-css-selectors.html
http://liamkaufman.com/blog/2012/03/08/scraping-web-pages-with-jquery-nodejs-and-jsdom/
http://reustle.io/blog/simple-site-scraping-with-nodejs-and-jsdom
这些链接都没有显示如何在页面上实际使用JSDOM进行JS操作,只处理DOM操作。

2 个答案:

答案 0 :(得分:0)

快速的Google搜索会为您提供所需的内容,但这里有一个关于网页抓取的良好链接。你真的不需要使用JSDOM,你可以使用Cheerio(类似jQuery的语法)来选择HREF CSS元素。

http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs#commentform

干杯。

答案 1 :(得分:0)

如果您正在与DOM进行大量交互(通过Javascript或其他方式),您可能会遇到JSDOM不像浏览器那样表现不足的问题。

你可能会有更好的运气,例如PhantomJS(Node模块为exist),这将提供真正的无头浏览器环境。