如何抓取新闻网站(仅限内容)?

时间:2014-02-21 16:40:31

标签: python web web-crawler hierarchical-clustering

我想抓取印度新闻网站及其档案(例如thehindu.com,indianexpress.com和timesofindia.com)。

我听说Java中的样板库用于提取内容。但是python中是否有任何库可以执行此操作以及如何执行此操作?

如果这是一个重复的问题,请帮我指出。

1 个答案:

答案 0 :(得分:6)

Scrapy是一个流行的Python抓取框架