web-crawler - 最有效的语言来创建一个非常快速的网络爬虫？

使用你所知道的。查找当前首选语言的库以进行抓取/抓取，然后只有在遇到瓶颈时才优化为新语言。

如果你使用Python，那么stdlib有足够的html文本提取基本的东西，然后如果你需要更多的复杂性，请尝试beautifulsoup（注意：使用bs4，它比bs3更好）。

理想情况下，您应该在后台进行抓取/爬行，并以某种方式将缓存写入本地数据库。比如MariaSql，Postgres，Sqlite（最多一百万个页面）或NoSQL解决方案之一。

如果您这样做，并且您存储的格式是合理的标准，那么您可以轻松替换代码或您稍后使用的语言。

然后，您可以将前面的Web代码留在您喜欢的任何内容中 - php，python等等，然后交换一个新的更高效的后端爬虫。如果你需要它。