标签: python web web-crawler hierarchical-clustering
我想抓取印度新闻网站及其档案(例如thehindu.com,indianexpress.com和timesofindia.com)。
我听说Java中的样板库用于提取内容。但是python中是否有任何库可以执行此操作以及如何执行此操作?
如果这是一个重复的问题,请帮我指出。
答案 0 :(得分:6)
Scrapy是一个流行的Python抓取框架