我正在尝试从其他站点获取文本,我正在尝试使用https://multiverso.me/AllOrigins从该站点抓取文本。
此站点以字符串格式获取页面的所有内容。例如,我试图从URL TOI link获取数据。我正在使用此代码:
$.getJSON('http://allorigins.me/get?url=https%3A//timesofindia.indiatimes.com/sports/asian-games/such-a-long-walk-from-living-in-cowshed-to-asiad-medallist/articleshow/65361646.cms&callback=?', function(data){
console.log(data);
});
返回值为:
{contents: "<!DOCTYPE HTML><html xmlns:xslthelper="com.times.u…deoSwitch" type="hidden" value="1"></body></html>", status: {…}}
它给我的结果是一个字符串。但是我只想要文字。我尝试了以下方法:
$.getJSON('http://allorigins.me/get?url=https%3A//timesofindia.indiatimes.com/sports/asian-games/such-a-long-walk-from-living-in-cowshed-to-asiad-medallist/articleshow/65361646.cms&callback=?', function(data){
// $('#output').html(data.contents);
console.log(data);
var str = data.contents;
html = $.parseHTML(str)
console.log($(html).find('h2').text());
});
这仅返回一个h2标签,但我想获取网站上的所有文本。
当我使用body标签时,我什么也得不到。在这个问题中jQuery get the text of all elements in a page
我可以看到接受的答案是我应该使用:
$('body').text()
有什么方法可以从网站获取所有文本,只是文本不是JavaScript或其他内容。
例如,看看这个:Demo Of fetching text from site
在此演示中,您可以看到当我粘贴网址时我可以获取所有文本