从URL获取内容的自动过程

时间:2014-01-14 23:08:19

标签: php python json automation backend

我有一个巨大的URL列表来自客户端,我需要运行,所以我可以从页面获取内容。此内容位于页面内的不同标记中。

我希望创建一个自动服务来执行此操作,我可以让它完成运行。 我希望自动化流程加载每个页面并从特定的html标签中获取内容,然后处理一些内容以确保html是正确的。

如果可能,我想生成一个XML或JSON文件,但我可以在每页上找到XML或JSON文件。

最好的方法是什么,最好是我可以在mac或linux服务器上运行。

网址列表是指外部网站。

是否有我可以使用的东西或某个可以帮助我的例子。

由于

2 个答案:

答案 0 :(得分:0)

这是BeautifulSoup,恕我直言的完美应用。这是一个类似过程的tutorial。这当然是一个开端。

答案 1 :(得分:0)

Scrapy是一个很好的抓取和抓取框架。

我认为你会发现根据his answer中tim-cook提到的Requests + Beautiful Soup或LXML教程,它会涉及更多的学习开销。但是,如果你正在编写大量的抓取/解析逻辑,它应该指向一个非常好的(可读的,可维护的)代码库。

所以,如果这是一次性的运行,我会选择Beautiful Soup + Requests。如果它会被重复使用,延长并保持一段时间,那么Scrapy将是我的选择。