我正在使用Node.js
和cheerio
进行网页抓取,目前我无法提取img
代码的绝对网址。
所以这是代码:
$('.images').each(function () {
console.log("absolute url: " , $(this)[0].src)
});
我在Node.js中运行该代码的undefined
值返回src
,但是当我直接在Chrome控制台中应用该代码时,工作正常。像{{1}这样的内容没有实现src属性?接下来,我尝试输出Node.js
$(this)[0]
真的,它没有{
"type": "tag",
"name": "img",
"attribs": {
"class": "images",
"src": "/gfx/image.png",
"alt": "",
"children": [],
"next": {
"data": "\r\n ",
"type": "text",
"next": null,
"prev": "[Circular]",
"parent": {}
}
}
}
,只有src
返回相对网址,有什么想法吗?
答案 0 :(得分:1)
img
可能没有绝对网址但只有相关网址。 attribs.src
src
。但是你知道你要抓哪个网站,所以你可以建立绝对网址。
absoluteUrl = 'domain.com' + attribs.src;
答案 1 :(得分:0)
这是链接到http://api.jquery.com/attr/的文档中所述的预测行为。