如何使用socket.io从远程jquery客户端控制CasperJS自动化脚本

时间:2015-12-17 00:27:34

标签: socket.io phantomjs casperjs

我在CasperJS中有一个自动化脚本,用于控制登录到站点的PhantomJS无头浏览器,通过多个页面/表单输入数据。

在同一台物理服务器上,我有PHP / MySQL提供CRM客户端网站。在CRM网站上,我希望能够:

  1. 触发远程CasperJS脚本以浏览远程站点并登录并填写表单
  2. 阅读输出流(即"完成第1页,第2页完成"等)
  3. 在执行CasperJS脚本时显示客户端用户的状态更新
  4. 我在想socket.io就是这里的门票。但是,我这样做是错的吗?我试图避免运行selenium服务器。我检查了this answer on SO,但我不是在寻找截图,我正在寻找CasperJS的控制台输出,以便在客户网站上显示。

1 个答案:

答案 0 :(得分:1)

我曾经有过类似的任务,并使用本地Express.js服务器和Socket.io编写了一个解决方案。

您将使用node.js启动此服务器,然后通过向http://127.0.0.1:9000发送POST请求从PHP传递任务(我使用了优秀的Requests库)。

以下是我的脚本的简化版本:

var fs = require("fs");
var express = require("express");
var app = express();
var server = require("http").Server(app);
var io = require("socket.io")(server);
var iosocket;

// Express middleware to get variables from POST request
var bodyParser = require('body-parser');
app.use(bodyParser.urlencoded({ extended: true })); 


// Create websocket connection
io.on("connection", function(socket){

    console.log('io.js connection');
    iosocket = socket;
});

// Receieve task from external POST request
app.post("/scrape", function(req, res){

    res.send("Request accepted");

    // Url to parse
    var url = req.body.url;

    // Variable to collect data from scraper
    var data = [];

    // Launch scraping script
    var spawn = require('child_process').spawn,
        child = spawn('/path/to/casperjs', ['/path/to/scrape/script.js', url]);

    console.log("Spawned parser");

    // Receieve data from script
    child.stdout.on('data', function (data) {

        var message = data.toString();

        data.push(message);

        // Send data to the web client
        iosocket.emit("message", message);
    });

    // On error
    child.stderr.on('data', function (data) {
        console.log('stderr: ' + data.toString());
    });

    // On scraper exit
    child.on('close', function (code) {
        console.log("Scraper exited with code: " + code);
        // 
        // Put data into a file or a database, for example
        // 
        fs.writeFileSync("path/to/file/results_" + (new Date()).getTime() + ".json", JSON.stringify(data));
    });      

});

// Bind app to port @ localhost
server.listen(9000, "127.0.0.1");

Solution with CasperJS/Phantomjs server很有意思,但人们指出它泄漏了内存,如果你运行短命的CasperJS脚本,这可能不会发生。