reddit数据收集在php循环中途停止

时间:2016-08-30 07:46:15

标签: php loops reddit array-merge

伙计我使用此代码从reddit.com发布数据...这个工作正常,直到1500个帖子(我需要获取10000的数据)。然后它会出错

  

array_merge():参数#1不是数组

此错误从我写过Disallowed

的行开始

代码

array_merge

任何人都可以发现错误并让我知道让我获得10000个不受干扰的帖子

1 个答案:

答案 0 :(得分:1)

如果您在发生这种情况时提供了响应机构,那将会非常有用。您可能收到了错误消息。

我不知道这是不是您现在遇到错误的原因,但您的方法迟早会遇到两个问题。

第一个是每the API rules,您应该作为应用进行身份验证,并且应该指定用户代理;否则你会受到严重限制。你现在很可能会收到429,但不会检查它们。

其次,在reddit上列出页面仅涵盖1,000个项目,因此您将无法直接从中获取10,000个项目。如果您确实需要10k项目,则有两个主要选择:

  1. 在一段时间内一次收集数据1000件。
  2. 非常喜欢使用搜索API和时间戳来获取可以拼凑在一起的多条数据。
  3. 您尚未指定需要此数据的原因(或者您需要10,000个样本的原因),但如果您只是在寻找可以执行某些分析的reddit帖子,则其他人已创建{的数据集。 {3}}和posts