我正在使用Splunk来分析SFGov开放数据(data.sfgov.org),这是一个Socrata系统。
我可以下载json数据并离线分析。我现在正在实施数据集更新的自动索引(每天)。
我试图找出自上次投票以来实际使用哪些Socrata API字段来获取新记录。
我知道我可以使用$ where URL选项再次过滤:created_at和:updated_at参数,但是有一个rowID或最后一个索引还是那样的?我会在最后一行的splunk侧保持本地状态,例如
如果我昨晚得到的最后一行是18104,那么对于tonite的检查,我会要求发布的行> 18104.
提前致谢!我正在使用python进行自动化。
------已添加11/02/2016 ---
目前我手动测试尝试这种类型的GET(使用hurl.it测试)
https://data.sfgov.org/resource/nwsr-z4mh.json?$ where =:created_at介于'2016-10-23T18:00:00'和'2016-11-03T00:00:00'& $ order =:created_at DESC& $ select = :*,*
因此,如果我将它放入python中,我需要简单地保存以前的获取日期时间并执行'之间并希望获得最新创建的记录。
我更喜欢引用ROW#,但我不知道如何使用id“:”row-8aiu.d5x4~8rdi“参数。
答案 0 :(得分:1)
看起来你已经做了正确的事情。您只想保存最新的:created_at
或:updated_at
,并在$where
中将其用于以下查询。
您无法执行$where=:updated_at > :row-...
,因为行ID是标识符,而不是日期时间。