我的蜘蛛抓取源代码与浏览器中显示的不同。
我确信这些信息不是由JS加载的
这是我的代码:
import scrapy
class spider_chinaunicom(scrapy.Spider):
name = 'spider_chinaunicom'
def start_requests(self):
self.item = SpiderChinaunicomItem()
yield scrapy.Request(globalvar.chinaunicom_url%(globalvar.announcement_page),
method='POST',
body=json.dumps(globalvar.formdata),
callback=self.parse)
def parse(self, response):
print(response.text)
这是浏览器中的源代码。
<P style="FONT-FAMILY: ; COLOR: black; FONT-SIZE: 10.5pt; mso-hansi-
font-family: " class=MsoNormal><span class="">
...
{this is the important message that i want to crawl}
...
</span></P>
但程序运行的结果是
<P style="FONT-FAMILY: ; COLOR: black; FONT-SIZE: 10.5pt; mso-hansi-
font-family: " class=MsoNormal><span class="">
<br><br>
</span></P>
它丢失了我想要的信息
为什么它会丢失我想要的信息