目前我的文件夹(70,000)中有html文件,其中包含我要提取的静态内容。内容位于带有ID'内容的div中。我想我可以让nodeJS迭代每个文件,获取文件名及其内容。我想出了第一篇文章,关于如何让nodejs打开文件并获取位于特定div中的内容的任何建议(id =" content")。
我目前正在运行一台Windows机器,如果它会影响任何东西......
答案 0 :(得分:1)
您可以使用cheerio
var cheerio = require('cheerio'),
$ = cheerio.load(file_content);
// use it like jQuery
var div_content = $('#content').text();