Question

我的蜘蛛抓取源代码与浏览器中显示的不同。

我确信这些信息不是由JS加载的

这是我的代码：

import scrapy

class spider_chinaunicom(scrapy.Spider):
name = 'spider_chinaunicom'

def start_requests(self):
    self.item = SpiderChinaunicomItem()
    yield scrapy.Request(globalvar.chinaunicom_url%(globalvar.announcement_page),
                         method='POST',
                         body=json.dumps(globalvar.formdata),
                         callback=self.parse)

def parse(self, response):
    print(response.text)

这是浏览器中的源代码。

<P style="FONT-FAMILY: ; COLOR: black; FONT-SIZE: 10.5pt; mso-hansi- 
font-family: " class=MsoNormal><span class="">
...
{this is the important message that i want to crawl}
...
</span></P>

但程序运行的结果是

<P style="FONT-FAMILY: ; COLOR: black; FONT-SIZE: 10.5pt; mso-hansi- 
font-family: " class=MsoNormal><span class="">

<br><br>

</span></P>

它丢失了我想要的信息

为什么它会丢失我想要的信息

蜘蛛抓取源代码与浏览器

0 个答案: