我有一个印度歌曲的歌词集,需要用他们发布的年份来标记他们正在进行的实验。
有一个网站(lyricsindia.net),其中包含多年来这些歌词的详尽数据库,但不幸的是,歌词无法在网站上搜索到。相反,当我将部分歌词作为搜索字符串谷歌时,lyricsindia.net上歌曲的链接始终位于前10名结果中。
现在,我想知道是否可以使用像scrapy这样的网络爬行框架来使用搜索字符串作为抓取的起点。每个Scrapy教程,我都遇到了一个起始URL。
答案 0 :(得分:0)
您的搜索字符串可能是Scrapy网址的一部分。类似于google.com?q=my+string
或者,您可以检索搜索表单,并用字符串填写,例如:
return [FormRequest.from_response(response,
formdata={'search': 'you\'re search string'},
callback=self.parse)]
我确信Scrapy可能会做你想做的事。