标签: python concurrency html-parsing
我正在写聚合服务。此刻我需要解析约2 000 000页。起初我尝试用Python做到这一点,但很快我意识到它不是正确的工具。
现在我认为用其他编程语言获取页面并通过ZMQ将响应发送到Python后端可能是个好主意,它会提取数据并将其保存在数据库中。
所以,
答案 0 :(得分:0)
看看80legs:http://80legs.com/services.html
从他们的网站:
在几分钟内设置您自己的网络抓取并在超过50,000台计算机上运行