自上次查询以来,如何获取Socrata SODA数据集中的最新行?

时间:2016-11-02 00:36:20

标签: socrata soda

我正在使用Splunk来分析SFGov开放数据(data.sfgov.org),这是一个Socrata系统。

我可以下载json数据并离线分析。我现在正在实施数据集更新的自动索引(每天)。

我试图找出自上次投票以来实际使用哪些Socrata API字段来获取新记录。

我知道我可以使用$ where URL选项再次过滤:created_at和:updated_at参数,但是有一个rowID或最后一个索引还是那样的?我会在最后一行的splunk侧保持本地状态,例如

如果我昨晚得到的最后一行是18104,那么对于tonite的检查,我会要求发布的行> 18104.

提前致谢!我正在使用python进行自动化。

------已添加11/02/2016 ---

目前我手动测试尝试这种类型的GET(使用hurl.it测试)

https://data.sfgov.org/resource/nwsr-z4mh.json?$ where =:created_at介于'2016-10-23T18:00:00'和'2016-11-03T00:00:00'& $ order =:created_at DESC& $ select = :*,*

  • 这使用Socrata数据集中的:created_at系统字段。
  • 它返回在这些时间戳之间创建的记录。这似乎有效。

因此,如果我将它放入python中,我需要简单地保存以前的获取日期时间并执行'之间并希望获得最新创建的记录。

我更喜欢引用ROW#,但我不知道如何使用id“:”row-8aiu.d5x4~8rdi“参数。

1 个答案:

答案 0 :(得分:1)

看起来你已经做了正确的事情。您只想保存最新的:created_at:updated_at,并在$where中将其用于以下查询。

您无法执行$where=:updated_at > :row-...,因为行ID是标识符,而不是日期时间。