我必须抓取来自新闻网站的文章,使用某些关键字,我正在使用Scrapy执行此任务,检查页面上是否存在关键字,或者从页面中提取内容并搜索关键字。但是,当有列表页面时,我正面临这个问题,该列表页面只列出了包含新闻页面链接的新闻,例如http://www.thehindu.com / features / cinema /,我想逃离此页面,但我无法找到方法来检查它是否是一个列表页面。
答案 0 :(得分:0)
有几种方法可以实现这个功能。
您可以使用正则表达式来过滤蜘蛛的解析函数中的列表页面URL;
def parse(self, response):
list_page_pat = re.compile("your pattern")
for url in extract_urls:
if list_page_pat.match(url) is None:
//continue process