网络蜘蛛如何抓取::之前的内容?

时间:2017-04-05 02:46:18

标签: css web-crawler pseudo-element scrapy-spider css-content

DOM树中实际上不存在诸如::before::after之类的伪元素中的内容。因此,选择器找不到它是不可能的。

问题是,我怎样才能提取其中的内容?例如:

<div>This is <span></span>n apple.</div>
...
span::before {
    content : "a"
}

shows : This is an apple.

但如果我提取div的文字,我只会在This is n apple.内没有内容的情况下获得span::before

我该如何处理这个问题?

1 个答案:

答案 0 :(得分:1)

  

我该如何处理这个问题?

老实说,不要为此目的使用伪元素。

伪元素专门用于从文档树外部呈现内容。

此“生成的内容”由content::before伪元素的::after属性指定,通常用于添加纯粹的化妆品内容。

因此,搜索引擎没有理由索引生成的内容。

https://developer.mozilla.org/en-US/docs/Web/CSS/Pseudo-elements