我有一个抓取数据的爬虫。完成后,它将结果作为Json发布到PHP端点。问题是,可能有成千上万的抓取工具将数据推送到此端点。这意味着它必须快速而不会因数据库查询等问题而变慢。
因此,我认为接收数据的过程不应包括数据处理,只能存储。即保存到磁盘,稍后由服务器上的cron作业处理。这样,上传不会因实际索引过程(即大量SQL语句)而变慢。这些语句可以随时执行,因此只要我存储它们,只要我按顺序运行这些查询,我就可以轻松创建一个在接收数据后执行实际工作的队列。
这个想法是最终拥有一个接收数据的服务器和另一个处理数据的服务器。所以找到一个能够牢记这一点的解决方案会很高兴。 (例如,如果我直接保存到磁盘,这将如何影响需要访问将要处理它的服务器的数据?)