从一系列网页中提取数据最容易的是什么?

时间:2015-10-19 13:23:38

标签: javascript web-crawler extraction data-extraction

这是我的问题:

我有来自电子商务的sitemap.xlm。它包含其产品的所有URL。从这些URL我想得到产品的名称(也许它的价格)。我的第一个想法是使用Google App Script:

function test() {

  var response = UrlFetchApp.fetch("http://www.leroymerlin.com.br/emenda-rigido-de-pvc-600cm-plasbil_87821293");

  Logger.log(response);

  var ind;

   while( ind = /<img src="([^"]*)/.exec( response.getContentText()) ){ 
     Logger.log(ind[1]);
   }

}

UrlFetchApp.fetch()方法根本不可靠。所以我很快意识到这不是我最好的选择。

这是一项非常简单的任务。我不想以任何方式构建一些让整个网站变得疯狂的东西。我只想从一组URL中提取一些数据。所以我认为必须有一个简单的解决方案。不幸的是,我发现做GoolgeSearch的一切都太复杂了(一个穿过整个网站的爬虫)或者它不是免费的。

我需要基于javascript的解决方案。如果它是一个基于网络的解决方案(我可以在我的浏览器上执行的操作),我也会很棒,但如果我必须使用程序,它也可以。或者甚至在Google App Script上使用此解决方案的解决方案也适用于我。

非常感谢。

2 个答案:

答案 0 :(得分:1)

您可以使用浏览器的DOM parserXMLHttpRequest来加载网址并对其进行解析(对每个网址重复):

<script type="text/javascript">
// create your DOM element
var myPage = document.createElement('html');
// now load myPage with the html from url
loadURLHtml("http://myURL");

function loadURLHtml(url)
{
  var xmlhttp;
  if (window.XMLHttpRequest)
  {// code for IE7+, Firefox, Chrome, Opera, Safari
    xmlhttp=new XMLHttpRequest();
  }
  else
  {// code for IE6, IE5
    xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
  }
  xmlhttp.onreadystatechange=function()
  {
    if (xmlhttp.readyState==4 && xmlhttp.status==200)
    {
      // POPULATE HTML into your DOM
      myPage.innerHTML = xmlhttp.responseText;
      if (myPage.innerHTML)
      {
        // get your element of interest from the loaded html in the DOM
        myPage.getElementsByTagName('myTag'); 
      }
    }
  }
  xmlhttp.open("GET", url, true);
  xmlhttp.send();
}
</script>

答案 1 :(得分:1)

您可能想尝试PhantomJS。它基本上是一个基于webkit的浏览器,没有任何可见的窗口。该API在JS中是本地的,非常简单。您甚至可以使用CSS选择器来获取相关页面的特定部分。