应用错误收集

时间：2014-01-14 23:08:19

标签： php python json automation backend

我有一个巨大的URL列表来自客户端，我需要运行，所以我可以从页面获取内容。此内容位于页面内的不同标记中。

我希望创建一个自动服务来执行此操作，我可以让它完成运行。我希望自动化流程加载每个页面并从特定的html标签中获取内容，然后处理一些内容以确保html是正确的。

如果可能，我想生成一个XML或JSON文件，但我可以在每页上找到XML或JSON文件。

最好的方法是什么，最好是我可以在mac或linux服务器上运行。

网址列表是指外部网站。

是否有我可以使用的东西或某个可以帮助我的例子。

由于

答案 0 :(得分：0)

这是BeautifulSoup，恕我直言的完美应用。这是一个类似过程的tutorial。这当然是一个开端。

答案 1 :(得分：0)

Scrapy是一个很好的抓取和抓取框架。

我认为你会发现根据his answer中tim-cook提到的Requests + Beautiful Soup或LXML教程，它会涉及更多的学习开销。但是，如果你正在编写大量的抓取/解析逻辑，它应该指向一个非常好的（可读的，可维护的）代码库。

所以，如果这是一次性的运行，我会选择Beautiful Soup + Requests。如果它会被重复使用，延长并保持一段时间，那么Scrapy将是我的选择。