CasperJS和mediawiki

时间:2016-10-10 16:41:18

标签: phantomjs mediawiki casperjs

我正在尝试使用casperjs自动导出媒体wiki xml,因为我们无法通过托管它的机器进行访问。问题是下载xml作为post请求,响应是xml。目前我有以下内容(另一张票已经堆栈溢出带来了此代码)

    casper.then(function(){
       var theFormRequest = this.page.evaluate(function() {
          var request = {}; 
          var formDom = document.forms[0];
          formDom.onsubmit = function() {
              //iterate the form fields
              var data = {};
              for(var i = 0; i < formDom.elements.length; i++) {
              data[formDom.elements[i].name] = formDom.elements[i].value;
            }
            request.action = formDom.action;
            request.data = data;
            return false; //Stop form submission
        }

        var link = $(".visualClear").submit();      
        return request; 
    }); 


        this.echo("DOWNLOADING  " + theFormRequest.action + "  " + theFormRequest.data);
        casper.download(theFormRequest.action, "downloaded_file.xml", "POST", theFormRequest.data);
    });

我使用过resource.received事件,但这只是给出了响应的元数据而不是实际数据。目前下载的是html页面,而不是xml,我可以确认单击该按钮,就好像我删除了formDom.onSubmit,resource.received显示返回的content.type是XML。

虽然它在我的mediawiki中使用的类别不同,但是这是mediawiki页面做的完全相同的事情https://www.mediawiki.org/wiki/Special:Export

由于

编辑 这是通过浏览器

完成的响应
Accept-Ranges:bytes
Age:0
Connection:keep-alive
Content-disposition:attachment;filename=file-20161010165904.xml
Content-Length:172717
Content-Type:application/xml; charset=utf-8
Date:Mon, 10 Oct 2016 16:59:04 GMT
Server:nginx
Via:1.1 varnish
X-Content-Type-Options:nosniff
X-Powered-By:HHVM/3.15.1
X-Varnish:1482412076

1 个答案:

答案 0 :(得分:0)

我会做什么:

casper.start();

casper.open('http://url_to_mediawiki', {
        method: 'GET',
        headers: {
            'Content-Type': 'application/xml; charset=utf-8',
        },
        encoding: 'utf8'
    }
})

casper.then(function() {
    this.echo(this.getPageContent());
})

getPageContent()内容不可知,具有灵活性。它只是呈现它找到的东西。查看casper#getpagecontentcasper#open