最有效的语言来创建一个非常快速的网络爬虫?

时间:2014-02-19 07:47:06

标签: web-crawler

我正在努力创建一个推荐类别链接的新网站。我需要快速扫描不同的网页。我应该使用哪种语言来创建高效的网络爬虫?

1 个答案:

答案 0 :(得分:2)

使用你所知道的。查找当前首选语言的库以进行抓取/抓取,然后只有在遇到瓶颈时才优化为新语言。

如果你使用Python,那么stdlib有足够的html文本提取基本的东西,然后如果你需要更多的复杂性,请尝试beautifulsoup(注意:使用bs4,它比bs3更好)。

理想情况下,您应该在后台进行抓取/爬行,并以某种方式将缓存写入本地数据库。比如MariaSql,Postgres,Sqlite(最多一百万个页面)或NoSQL解决方案之一。

如果您这样做,并且您存储的格式是合理的标准,那么您可以轻松替换代码或您稍后使用的语言。

然后,您可以将前面的Web代码留在您喜欢的任何内容中 - php,python等等,然后交换一个新的更高效的后端爬虫。如果你需要它。