抓取网站-获取奇怪格式的链接

时间:2018-08-10 18:27:03

标签: node.js web-scraping xhtml puppeteer

我正在尝试使用Puppeteer抓取网站,而我回来的链接格式却很奇怪。

链接(由dom解析器通过节点服务器解析)如下所示:

{ type: 'tag',
     name: 'a',
     namespace: 'http://www.w3.org/1999/xhtml',
     attribs:
      { 'data-ng-click': 'saveUserChoice()',
        class: 'link link-dashed' },
     'x-attribsNamespace': { 'data-ng-click': undefined, class: undefined },
     'x-attribsPrefix': { 'data-ng-click': undefined, class: undefined },
     children: [ [Object], [Object], [Object] ],
     parent:
      { type: 'tag',
        name: 'div',
        namespace: 'http://www.w3.org/1999/xhtml',
        attribs: [Object],
        'x-attribsNamespace': [Object],
        'x-attribsPrefix': [Object],
        children: [Array],
        parent: [Object],
        prev: [Object],
        next: [Object] },
     prev:
      { type: 'text',
        data: '\n                ',
        parent: [Object],
        prev: null,
        next: [Circular] },
     next:
      { type: 'text',
        data: '\n            ',
        parent: [Object],
        prev: [Circular],
        next: null } },

}

知道这是为什么还是如何进行?我无法确定是否是因为页面被格式化为单页面应用程序,或者网站正在做某些事情以防止抓取。

0 个答案:

没有答案