从数据网格中刮取/检索数据 - DOM到CSV控制台输出

时间:2015-05-12 08:51:58

标签: javascript jquery firefox gwt web-scraping

我想刮掉 Cell Widgets - >此页面上的数据网格: http://samples.gwtproject.org/samples/Showcase/Showcase.html#!CwDataGrid

理想情况下,我正在寻找像csv样式的字符串输出 (第一行和最后一行示例)

;Corey;Jenkins;63;Coworkers;438 Techwood St;
.... (many rows here)
;Yvonne;Morris;55;Family; 483 Third Pkwy;

(我正在使用Firefox)

2 个答案:

答案 0 :(得分:1)

不确定您是否正在尝试在gwt网站上构建网站抓取工具。在上面的示例中,每行都具有跨TR标记表示的每个网格行的标识属性。对于第一个TR标记,您将拥有 __gwt_row="0" __gwt_subrow="0"

您还将拥有 __gwt_cell="cell-gwt-uid-29"

类型的单元格属性

行和单元格上面的两个属性应该允许您轻松地执行XPATH查找和迭代来抓取页面并输出到csv文件中。

答案 1 :(得分:0)

var jq = document.createElement('script');

jq.onload = function() {
    jQuery.noConflict();

    // Our stuff...
    (function ($) {
        $('table').find('tr')
            .each(function(j, rowitem) {
                var line = ''
                $(rowitem).find('div').each(function(i, item) {
                    var o = $(item).find('option[selected]');
                    if (o.length > 0) {
                        line += $(o).text();
                    } else {
                        line += $(item).text();
                    }
                    line += ';';
                });
                console.log(line);
            });
    })(jQuery);
}

// Load jQuery as per http://stackoverflow.com/a/7474386/22972
jq.src = "http://ajax.googleapis.com/ajax/libs/jquery/2.1.3/jquery.min.js";
document.getElementsByTagName('head')[0].appendChild(jq);