如何通过在Google上搜索来抓取指向特定域的链接?

时间:2011-09-20 09:41:30

标签: python web-crawler data-mining scrapy

我有一个印度歌曲的歌词集,需要用他们发布的年份来标记他们正在进行的实验。

有一个网站(lyricsindia.net),其中包含多年来这些歌词的详尽数据库,但不幸的是,歌词无法在网站上搜索到。相反,当我将部分歌词作为搜索字符串谷歌时,lyricsindia.net上歌曲的链接始终位于前10名结果中。

现在,我想知道是否可以使用像scrapy这样的网络爬行框架来使用搜索字符串作为抓取的起点。每个Scrapy教程,我都遇到了一个起始URL。

1 个答案:

答案 0 :(得分:0)

您的搜索字符串可能是Scrapy网址的一部分。类似于google.com?q=my+string

或者,您可以检索搜索表单,并用字符串填写,例如:

return [FormRequest.from_response(response,
            formdata={'search': 'you\'re search string'},
            callback=self.parse)]

我确信Scrapy可能会做你想做的事。