我有一个巨大的URL列表来自客户端,我需要运行,所以我可以从页面获取内容。此内容位于页面内的不同标记中。
我希望创建一个自动服务来执行此操作,我可以让它完成运行。 我希望自动化流程加载每个页面并从特定的html标签中获取内容,然后处理一些内容以确保html是正确的。
如果可能,我想生成一个XML或JSON文件,但我可以在每页上找到XML或JSON文件。
最好的方法是什么,最好是我可以在mac或linux服务器上运行。
网址列表是指外部网站。
是否有我可以使用的东西或某个可以帮助我的例子。
由于
答案 0 :(得分:0)
这是BeautifulSoup,恕我直言的完美应用。这是一个类似过程的tutorial。这当然是一个开端。
答案 1 :(得分:0)
Scrapy是一个很好的抓取和抓取框架。
我认为你会发现根据his answer中tim-cook提到的Requests + Beautiful Soup或LXML教程,它会涉及更多的学习开销。但是,如果你正在编写大量的抓取/解析逻辑,它应该指向一个非常好的(可读的,可维护的)代码库。
所以,如果这是一次性的运行,我会选择Beautiful Soup + Requests。如果它会被重复使用,延长并保持一段时间,那么Scrapy将是我的选择。