使用Scrapy抓取新闻网站时逃离新闻列表页面

时间:2014-12-21 12:25:35

标签: python-2.7 scrapy web-crawler

我必须抓取来自新闻网站的文章,使用某些关键字,我正在使用Scrapy执行此任务,检查页面上是否存在关键字,或者从页面中提取内容并搜索关键字。但是,当有列表页面时,我正面临这个问题,该列表页面只列出了包含新闻页面链接的新闻,例如http://www.thehindu.com / features / cinema /,我想逃离此页面,但我无法找到方法来检查它是否是一个列表页面。

1 个答案:

答案 0 :(得分:0)

有几种方法可以实现这个功能。

您可以使用正则表达式来过滤蜘蛛的解析函数中的列表页面URL;

def parse(self, response):
    list_page_pat = re.compile("your pattern")
    for url in extract_urls:
        if list_page_pat.match(url) is None:
           //continue process