我正在执行此Splash-Scrapy Spider,以便在呈现后获取此URL内容:https://github.com/scrapy/scrapy/find/master(JS生成包含项目文件名的表,这是我想最后获得的信息)
import scrapy
from scrapy_splash import SplashRequest
class SplashSpider(scrapy.Spider):
name = 'splash_spider'
def start_requests(self):
yield SplashRequest(
url='https://github.com/scrapy/scrapy/find/master',
callback=self.parse,
)
def parse(self, response):
self.log('I have just visited ' + response.url)
with open('a', 'wb') as f:
f.write(response.body)
尽管如此,我只获得页面源代码,而不是JS生成的元素。
Splash-Scrapy是否可能由于生成时间,脚本类型而无法呈现元素,或者我做错了什么?
当然,我尝试使用css / xpath选择器获取文件名,我只是将响应主体写入文件中以更快地测试/显示响应。
我使用JavaScript渲染测试了其他Splash-Scrapy示例,并且可以正常工作,这就是为什么我认为它不会是settings.py
配置错误的原因。