我的网络使用puppeteer抓取了一系列简单的html页面。我想将html元素的全部或大部分innerText拉到正文中,并以有组织的方式用它填充一个json文件。
页面的格式有一些变化。我想知道是否有一种方法可以很好地将文本从页面上拉出来并组织起来,而该方法与页面的格式不太相关。
我非常确定我可以编写程序来说明格式1是否是这种情况,以这种方式导航,否则,如果格式2是这样的导航,依此类推。但是,我正在寻找一种更优雅的方法,将页面中的所有内部文本提取到json中,并且仍然能够通过其元素进行组织。
答案 0 :(得分:1)
我建议使用treeWalker来获取所有textNodes
我写了一个扩展程序,它的突出显示功能类似
https://github.com/asyncb/selection-highlighter/blob/master/highlighter.js