我正在尝试挖掘嵌套的javascript数组以获取对象的第一个实例。这是代码:
var utils = require('utils');
var casper = require('casper').create();
casper.start('http://en.wikipedia.org/wiki/List_of_male_tennis_players', function() {
this.echo(this.getTitle());
// Get info on all elements matching this CSS selector
var tennis_info_text = this.evaluate(function() {
var nodes = document.querySelectorAll('table.sortable.wikitable tbody tr');
return [].map.call(nodes, function(node) { // Alternatively: return Array.prototype.map.call(...
return node.textContent;
});
});
// Split the array into an array of object literals
var tennis_data = tennis_info_text.map(function(str) {
var elements = str.split("\n");
var data = {
name : elements[1],
birth : elements[2],
death : elements[3],
country : elements[4]
};
return data;
});
// Dump the tennis_names array to screen
utils.dump(tennis_data.slice(1,5));
});
casper.run();
stdout的结果是:
{
"name": "Acasuso, JoséJosé Acasuso",
"birth": "1982",
"death": "–",
"country": " Argentina"
},
{
"name": "Adams, DavidDavid Adams",
"birth": "1970",
"death": "–",
"country": " South Africa"
},...
对于name
元素,我从tr
行获取所有内容,当您查看目标网址源时,该行匹配2个元素。我想要的只是name元素的第二部分,类为“fn”;例如:“David Adams”,“JoséAcasuso”。我认为像name:elements[1].smtg
这样的东西应该有效,但我没有运气。
此外,我如何从elements
对象打印可用的对象键?
答案 0 :(得分:0)
问题是第一个单元格包含两个元素,其中包含具有不同排序的播放器的名称和名字。在获取整个单元格的textContent
时,两个名称表示都放在同一个字符串中,但在浏览器中只能看到其中一个。如果您只想访问可见的,则需要明确抓取它。
您可以编写一个自定义函数,从字符串中删除重复的名称,但更容易使用正确的元素textContent
。
这可以在页面上下文中轻松完成:
var tennis_data = this.evaluate(function() {
var nodes = document.querySelectorAll('table.sortable.wikitable tbody tr');
return [].map.call(nodes, function(node) {
var cells = [].map.call(node.querySelectorAll("td"), function(cell, i){
if (i === 0) {
return cell.querySelector(".fn").textContent;
} else {
return cell.textContent;
}
});
return {
name: cells[0],
birth: cells[1],
...
}
});
});
此外,我如何从
elements
对象打印可用的对象键?
elements
是一个字符串数组,因此除了数组索引和数组函数之外,没有可以访问的键。