网络抓取技术需要什么?

时间:2015-04-05 21:12:56

标签: mysql performance web web-scraping

我需要知道什么是最好的编程技术,最适合从谷歌搜索,搜索,社交媒体网站等动态网站进行网页抓取,希望你明白我的观点。

希望某些东西具有高度可扩展性和低资源接受度。

还浪费了大多数开发者社区?

现代语言与DATABASE的最佳组合我也在考虑使用MYSQL InnoDB?因为我们需要存储已删除的数据并显示。

因为我们一直在使用PHP和MYSQL,它在报废时工作很慢。

请让我知道谢谢。

此致

1 个答案:

答案 0 :(得分:0)

寻找您想要的特定抓取的API(例如关键字的排名)。

然后使用适当的语言来解码API为您提供的内容。如果它为您提供JSON或CSV,那么Perl和PHP非常出色。使用编程语言按摩数据,然后构建批量INSERT或CSV文件(用于LOAD DATA)并将内容插入InnoDB表。

如果找不到合适的API,但可以找到合适的网页,那么Perl可能是解析的最佳选择。在CPAN查找合适的图书馆来帮助您;会有几个(有些比其他更好)。