我试图从The Original Hip Hop Lyrics Archive中搜集歌词。
我设法写了一个蜘蛛,如果我在艺术家页面上发布它,就会刮掉艺术家的歌词:http://www.ohhla.com/anonymous/aesoprck/。
但是当我在此页面上发布时,链接到不同的艺术家页面http://www.ohhla.com/all.html我什么都没得到。
这是我尝试用来关注艺术家页面链接的规则:
Rule(LinkExtractor(restrict_xpaths=('//pre/a/@href',)), follow= True)
这是我尝试使用指向不同页面的链接以及指向艺术家页面的链接的规则:
Rule(LinkExtractor(restrict_xpaths=('//h3/a/@href',)), follow= True)
我修改了Scrapy中的教程以使其工作,因为出于某种原因,当我开始一个新项目时它没有工作。
这是我完整的蜘蛛实例:
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors import LinkExtractor
class ohhlaSpider(CrawlSpider):
name = "ohhla"
download_delay = 0.5
allowed_domains = ["ohhla.com"]
start_urls = ["http://www.ohhla.com/anonymous/aesoprck/"]
rules = (Rule (LinkExtractor(restrict_xpaths=('//h3/a/@href',)), follow= True), # trying to follow links to pages with more links to artist pages
Rule (LinkExtractor(restrict_xpaths=('//pre/a/@href',)), follow= True), # trying to follow links to artist pages
Rule (LinkExtractor(deny_extensions=("txt"),restrict_xpaths=('//ul/li',)), follow= True), # succeeding in following links to album pages
Rule (LinkExtractor(restrict_xpaths=('//ul/li',)), callback="extract_text", follow= False),) # succeeding in extracting lyrics from the songs on album pages
def extract_text(self, response):
""" extract text from webpage"""
string = response.xpath('//pre/text()').extract()[0]
with open("lyrics.txt", 'wb') as f:
f.write(string)
答案 0 :(得分:3)
restrict_xpaths
不应指向@href
属性。它应该指向链接提取器搜索链接的位置:
Rule(LinkExtractor(restrict_xpaths='//h3'), follow=True)
请注意,您可以将其指定为字符串而不是元组。
您还可以allow
其中包含all*.html
的所有链接:
Rule(LinkExtractor(allow=r'all.*?\.html'), follow=True)
您还应确保您的蜘蛛实际访问“父目录”页面。开始使用它进行爬网听起来很合理,因为这是目录的索引页面:
start_urls = ["http://www.ohhla.com/all.html"]
答案 1 :(得分:0)
第二部分此答案可用于抓取网页中的特定链接。 https://stackoverflow.com/a/40146522/4418897