我编写了一个抓取工具,用于从网页中提取链接和文本。这是内容的结构
DIV - UL - 李 - 一个
这是我的代码
from scrapy import Spider
from scrapy.selector import Selector
from stack.items import StackItem
class StackSpider(Spider):
name = "stack"
allowed_domains = ["stackoverflow.com"]
start_urls = [
"http://page.com",
]
def parse(self, response):
documents = Selector(response).xpath('//*[@id="node-329"]/div[1]/ul/li')
for document in documents:
item = StackItem()
item['title'] = document.xpath('./a/text()').extract()
item['link'] = document.xpath('/a/@href').extract()
yield item
基本上,标签/ a / @ href不起作用。如果我对此进行评论并尝试仅提取文本,则可以正常工作。
请帮帮我。