很抱歉,如果它太基础了。我想抓取一个网站,其中涉及点击页面上的链接,并获得生成的HTML。我读到了名为JSDOM的nodejs模块,我想这是为了这个目的而构建的。
任何人都可以指导我朝着正确的方向(博客或一些文档),因为我找不到任何有价值的东西。
编辑1:
我一直在使用cheerio,但它没有执行该功能。我找到了这三个链接http://okfnlabs.org/blog/2013/01/15/web-scraping-with-node-css-selectors.html
http://liamkaufman.com/blog/2012/03/08/scraping-web-pages-with-jquery-nodejs-and-jsdom/
http://reustle.io/blog/simple-site-scraping-with-nodejs-and-jsdom
这些链接都没有显示如何在页面上实际使用JSDOM进行JS操作,只处理DOM操作。
答案 0 :(得分:0)
快速的Google搜索会为您提供所需的内容,但这里有一个关于网页抓取的良好链接。你真的不需要使用JSDOM,你可以使用Cheerio(类似jQuery的语法)来选择HREF CSS元素。
http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs#commentform
干杯。
答案 1 :(得分:0)