我想使用scrapy获取以下论坛页面的帖子数据: https://www.motor-talk.de/faq/mercedes-e-klasse-w210-q89.html
我尝试过的代码如下所示。第一部分工作,并返回所需的文本。然而,第二部分完全没有返回,蜘蛛就结束了。
有没有人知道我从Chrome获得的XPath是错误的还是其他错误?
我还附加了我从Macs终端获得的输出。
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'https://www.motor-talk.de/faq/mercedes-e-klasse-w210-q89.html#Q3512477',
]
def parse(self, response):
for text in response.xpath('//*[@id="questions"]/div[2]/div[1]/div/p[15]/i/text()'):
yield {
'text': text.extract(),
}
for text in response.xpath('//*[@id="questions"]/div[2]/div[3]/div[2]/div[1]/table/tbody/tr/td/div/p[1]/text()'):
yield {
'text2': text.extract()
}
答案 0 :(得分:0)
response.xpath("//div[@class='statictext']//div[@class='bbcode']/text()")