从解析的html获取文本值

时间:2018-08-12 11:28:04

标签: javascript jquery web-scraping

我正在尝试从其他站点获取文本,我正在尝试使用https://multiverso.me/AllOrigins从该站点抓取文本。

此站点以字符串格式获取页面的所有内容。例如,我试图从URL TOI link获取数据。我正在使用此代码:

 $.getJSON('http://allorigins.me/get?url=https%3A//timesofindia.indiatimes.com/sports/asian-games/such-a-long-walk-from-living-in-cowshed-to-asiad-medallist/articleshow/65361646.cms&callback=?', function(data){
console.log(data);
});

返回值为:

 {contents: "<!DOCTYPE HTML><html xmlns:xslthelper="com.times.u…deoSwitch" type="hidden" value="1"></body></html>", status: {…}}

它给我的结果是一个字符串。但是我只想要文字。我尝试了以下方法:

  $.getJSON('http://allorigins.me/get?url=https%3A//timesofindia.indiatimes.com/sports/asian-games/such-a-long-walk-from-living-in-cowshed-to-asiad-medallist/articleshow/65361646.cms&callback=?', function(data){
  // $('#output').html(data.contents);
console.log(data);
var str = data.contents;
html = $.parseHTML(str)
console.log($(html).find('h2').text());

});

这仅返回一个h2标签,但我想获取网站上的所有文本。

当我使用body标签时,我什么也得不到。在这个问题中jQuery get the text of all elements in a page

我可以看到接受的答案是我应该使用:

 $('body').text()

有什么方法可以从网站获取所有文本,只是文本不是JavaScript或其他内容。

例如,看看这个:Demo Of fetching text from site

在此演示中,您可以看到当我粘贴网址时我可以获取所有文本

0 个答案:

没有答案