Google脚本 - 从网站论坛解析HTML - 并将数据写入工作表

时间:2015-02-28 22:59:57

标签: javascript html parsing google-apps-script google-sheets

我从论坛网址获取HTML,并从他们的个人资料页面解析用户的帖子数量。我不知道如何将解析后的号码写入Google电子表格。

它应该按照B列中的帐户进行说明直到最后一行,并用计数更新A列。

脚本没有给我任何错误,但它没有将检索到的值设置到电子表格中。

    function msg(message){
  Browser.msgBox(message);
}

function onOpen() {
  var ui = SpreadsheetApp.getUi();
  ui.createMenu("Update")
    .addItem('Update Table', 'updatePosts')
    .addToUi();
}

function getPostCount(profileUrl){
  var html = UrlFetchApp.fetch(profileUrl).getContentText();
  var sliced = html.slice(0,html.search('Posts Per Day'));  
  sliced = sliced.slice(sliced.search('<dt>Total Posts</dt>'),sliced.length);
  postCount = sliced.slice(sliced.search("<dd> ")+"<dd> ".length,sliced.search("</dd>"));

  return postCount;
}

function updatePosts(){

  if(arguments[0]===false){
    showAlert = false;
  } else {
    showAlert=true;
  }

  var spreadSheet = SpreadsheetApp.getActiveSpreadsheet();
  var accountSheet = spreadSheet.getSheetByName("account-stats");
  var statsLastCol = statsSheet.getLastColumn();
  var accountCount = accountSheet.getLastRow();
  var newValue = 0;
  var oldValue = 0;
  var totalNewPosts = 0;
  for (var i=2; i<=accountCount; i++){ 
    newValue = parseInt(getPostCount(accountSheet.getRange(i, 9).getValue())); 
    oldValue = parseInt(accountSheet.getRange(i, 7).getValue());
    totalNewPosts = totalNewPosts + newValue - oldValue;
    accountSheet.getRange(i, 7).setValue(newValue);    
    statsSheet.getRange(i,statsLastCol).setValue(newValue-todaysValue); 

  }
  if(showAlert==false){
    return 0;
  }
  msg(totalNewPosts+" new post found!");  
}


function valinar(needle, haystack){
  haystack = haystack[0]; 
  for (var i in haystack){

    if(haystack[i]==needle){
      return true;
    } 
  }


  return false;
}

这是我第一次做这样的事情并从其他网站的例子开始工作。

我还有一个问题。在函数getPostCount中,我发送函数profileurl。我在哪里声明?

1 个答案:

答案 0 :(得分:1)

以下是从电子表格中获取网址的方法:

function getPostCount(profileUrl){
  var ss = SpreadsheetApp.getActiveSpreadsheet();
  var thisSheet = ss.getSheetByName("List1");

  var getNumberOfRows = thisSheet.getLastRow();
  var urlProfile = "";
  var sliced = "";
  var A_Column = "";
  var arrayIndex = 0;

  var rngA2Bx = thisSheet.getRange(2, 2, getNumberOfRows, 1).getValues();

  for (var i = 2; i < getNumberOfRows + 1; i++) { //Start getting urls from row 2
    //Logger.log('count i: ' + i);

    arrayIndex = i-2;
    urlProfile = rngA2Bx[arrayIndex][0];

    //Logger.log('urlProfile: ' + urlProfile);

    var html = UrlFetchApp.fetch(urlProfile).getContentText();
    sliced = html.slice(0,html.search('Posts Per Day'));

    var postCount = sliced.slice(sliced.search("<dd> ")+"<dd> ".length,sliced.search("</dd>"));
    sliced = sliced.slice(sliced.search('<dt>Total Posts</dt>'),sliced.length);
    postCount = sliced.slice(sliced.search("<dd> ")+"<dd> ".length,sliced.search("</dd>"));

    Logger.log('postCount: ' + postCount);

    A_Column = thisSheet.getRange(i, 1);
    A_Column.setValue(postCount);
  };
}

您在其中一个变量前面缺少var

postCount = sliced.slice(sliced.search("<dd> ")+"<dd> ".length,sliced.search("</dd>"));

那不行。需要将var放在前面。 var postCount = ....

在此功能中:

function updatePosts(){

  if(arguments[0]===false){
    showAlert = false;
  } else {
    showAlert=true;
  }

您的代码中没有名为arguments的数组。 arguments定义在哪里以及如何将任何值放入其中?