使用DOMParser()获取HTML页面的innerText吗?

时间:2019-03-18 23:51:58

标签: javascript google-chrome

我一直在尝试让DOMParser刮擦URL的innerText(开发用于搜索文章的Web刮擦器),但似乎无法正常工作。使用Chrome,获取选项卡的innerText非常容易,但是我似乎找不到任何与获取URL的innerText有关的文档。我也尝试过进行正则表达式并将HTML放入临时文档元素中,但这也不起作用。

这是DOMParser的代码,其中searchLink [x]是文章的URL,URLResult是我想在解析后存储文本的位置。

const Http = new XMLHttpRequest();
Http.open("GET", searchLink[x]);
Http.send();
Http.onreadystatechange=(e)=>{

urlResult = Http.responseText;
var parser = new DOMParser()
urlResult = parser.parseFromString(urlResult, 'text/html').body.innerText
console.log(urlResult)

}

我还将使用上面的代码(在pastebin上,因为我不想淹没页面)提供返回字符串的示例

https://pastebin.com/VXNXwTSC

编辑:从Http GET返回HTML https://pastebin.com/GzYD3CBk

编辑:Boilerpipe有一个很棒的API,强烈建议我用来获取Article文本。感谢您的帮助

0 个答案:

没有答案