我们使用托管在AWS服务器上的GuzzleHTTP和其他关联库创建了Crawler,仅从1个站点即可抓取并提供大约5,000种产品,而我们总共有4个站点,因此项数多达15,000多个。
现在,Crawler可以正常工作了,我们可以在一个小时内对所有站点进行爬网并构建JSON文件。
然后,我们将这些JSON文件中的数据导出到WordPress DB中,其中的项目为发布,而任何其他数据为post_meta以及条款和分类法。我们现在正在使用WP Ajax挂钩和过滤器以及一个循环(当然)来进行此操作。
但是导出要花费大量的时间,并且服务器超时的机会非常高,这通常是因为Apache服务器并不意味着要承担如此大的负担。
我们需要了解实现此目的的最佳方法。
我们是否在AWS本身上创建一个数据库,并以某种方式将其连接到WordPress?如果是,那么我们将如何管理自定义帖子及其元和术语之间的关系。就像我们将数据添加到托管WordPress的服务器上一样,我们可以使用WordPress函数创建帖子并相应地关联数据。
我们是否在WordPress服务器端运行CRON作业,并为服务器提供更多电源,所以不存在超时问题。我们在Site Ground的服务器上。
或者这有更好的方法吗?
任何帮助将不胜感激。
谢谢!
答案 0 :(得分:1)
根据我的经验,我已经在wordpress / woocommerce上创建了超过5万种产品。
我第一次使用woo commerce API从外部服务器创建产品,这很容易做到,但是需要很多时间。这是文档[http://woocommerce.github.io/woocommerce-rest-api-docs/#introduction][1]
对我来说最好的方法是使用WordPress挂钩,它将比api更快。您可以将超时设置为-1,并且不再显示。
我认为,WordPress不是处理大量数据的最佳选择。
祝你好运