我正在努力创建一个推荐类别链接的新网站。我需要快速扫描不同的网页。我应该使用哪种语言来创建高效的网络爬虫?
答案 0 :(得分:2)
使用你所知道的。查找当前首选语言的库以进行抓取/抓取,然后只有在遇到瓶颈时才优化为新语言。
如果你使用Python,那么stdlib有足够的html文本提取基本的东西,然后如果你需要更多的复杂性,请尝试beautifulsoup(注意:使用bs4,它比bs3更好)。
理想情况下,您应该在后台进行抓取/爬行,并以某种方式将缓存写入本地数据库。比如MariaSql,Postgres,Sqlite(最多一百万个页面)或NoSQL解决方案之一。
如果您这样做,并且您存储的格式是合理的标准,那么您可以轻松替换代码或您稍后使用的语言。
然后,您可以将前面的Web代码留在您喜欢的任何内容中 - php,python等等,然后交换一个新的更高效的后端爬虫。如果你需要它。