Question

我必须抓取来自新闻网站的文章，使用某些关键字，我正在使用Scrapy执行此任务，检查页面上是否存在关键字，或者从页面中提取内容并搜索关键字。但是，当有列表页面时，我正面临这个问题，该列表页面只列出了包含新闻页面链接的新闻，例如http://www.thehindu.com / features / cinema /，我想逃离此页面，但我无法找到方法来检查它是否是一个列表页面。

Answer 1

有几种方法可以实现这个功能。

您可以使用正则表达式来过滤蜘蛛的解析函数中的列表页面URL;

def parse(self, response):
    list_page_pat = re.compile("your pattern")
    for url in extract_urls:
        if list_page_pat.match(url) is None:
           //continue process

使用Scrapy抓取新闻网站时逃离新闻列表页面

1 个答案: