我试图在标题页面中刮掉标题,但由于对操作方法的不正确理解,我尝试了很多,但失败了。我是初学者。所以我需要帮助。
await shardingManager.broadcastEval(`this.guilds.get('352896116812939264').roles`);
答案 0 :(得分:0)
您能说出您需要哪种输出吗?从您的帖子中还不清楚。 查看此示例,您可以在这里进行
:希望它会对您有所帮助。
import scrapy
class DmozSpiderSpider(scrapy.Spider):
name = 'Dmoz'
start_urls = ['http://dmoz-odp.org/']
nav_page = 'http://dmoz-odp.org/docs/en/about.html'
def parse(self, response):
# collect data on first page
items = {
'Navbar': response.css('#main-nav a::text').extract(),
'Category_names': response.css('.top-cat a::text').extract(),
'Subcategories': response.css('.sub-cat a::text').extract(),
'Nav_page': self.nav_page,
}
# save and call request to another page
yield response.follow(self.nav_page, self.parse_nav, meta={'items': items})
def parse_nav(self, response):
# do you stuff on second page
items = response.meta['items']
items['something'] = 'something' # add your logics
yield items
或为单独的页面进行单独的登录:
import scrapy
class DmozSpiderSpider(scrapy.Spider):
name = 'Dmoz'
def start_requests(self):
reqs = (
('http://dmoz-odp.org/', self.parse_main),
('http://dmoz-odp.org/docs/en/about.html', self.parse_nav),
)
for link, callback in reqs:
yield scrapy.Request(link, callback)
def parse_main(self, response):
items = {
'Navbar': response.css('#main-nav a::text').extract(),
'Category_names': response.css('.top-cat a::text').extract(),
'Subcategories': response.css('.sub-cat a::text').extract(),
}
yield items
def parse_nav(self, response):
items = {
'something': 'something', # add your logics
}
yield items
答案 1 :(得分:0)
要解析其他HTML页面,您需要产生一个Request
对象,并将目标URL作为其构造函数的第一个参数,并在您传递给的构造函数的Spider方法中进行解析该Request
对象作为callback
参数。
我强烈建议您完成Scrapy tutorial。 Following links部分介绍了您要实现的目标。