如何从维基百科页面提取数据

时间:2018-11-03 00:38:32

标签: javascript jquery web-scraping wikipedia

仅使用JavaScript从此Wikipedia页面的表中提取数据的最佳方法是什么?

https://en.wikipedia.org/wiki/Most_common_words_in_Spanish

我尝试使用以下代码来获取JSON,但是它没有用。然后,一旦获得JSON,我将如何从表中获取数据?

fetch('https://en.wikipedia.org/wiki/Most_common_words_in_Spanish')
  .then(function(response) {
    return response.json();
  })
  .then(function(response){
  	console.log(response)
  })

1 个答案:

答案 0 :(得分:0)

此代码将使您的表成为html节点:

var url = 'https://en.wikipedia.org/w/api.php?action=parse&format=json&origin=*&page=Most%20common%20words%20in%20Spanish';

fetch(url)
  .then(function(response) {
    return response.json();
  })
  .then(function(response){
    html_code = response["parse"]["text"]["*"];
    parser = new DOMParser();
    html = parser.parseFromString(html_code, "text/html");
    var tables = html.querySelectorAll(".wikitable");
    console.log(tables);
  })

我正在使用MediaWiki API来获取Wikipedia页面的html作为json响应。您可以找到有关此类API请求here的文档。